Олег Саламаха: «Коммерческость запросов. Что это и как применять на практике»

678

12 марта в Киеве состоялась конференция для специалистов в области поисковой оптимизации SEMPRO 2015. CEO Prodvigator.ua Олег Саламаха представил доклад «Коммерческость запросов. Что это и как применять на практике».

Олег Саламаха отметил, что вопрос коммерческих запросов редко рассматривается на конференциях, и рассказал о своем пути получения формулы коммерческости запроса.

Докладчик обратил внимание на проблемы релевантности в поиске:

Это происходит потому, что на поиск влияют не только ссылки, тексты и прочее. Есть еще множество факторов, о которых мы мало говорим или просто не догадываемся. Один из таких факторов – это коммерческость запроса.

У каждого пользователя есть свой интент – то, что пользователь хочет получить в ответ на свой запрос. Есть простые запросы вроде «где купить гречку», и понятно, что в ответ нужно показать адреса супермаркетов. Но есть и проблема: в одном запросе разные пользователи подразумевают разные интенты. 

Например, когда пользователь вводит запрос «ноутбук», то не понятно, что он хочет: посмотреть обзоры, купить или починить ноутбук. И тут появляется проблема у поисковой системы в определении того, что нужно показать. В таком случае релевантность не играет огромной роли, так как необходимо извлечь интент. Что в таком случае делает поиск? Самый распространенный вариант – прислушивается к мнению большинства. Большинство предпочитает обзоры, поэтому значительную часть топа занимают именно они.

Таким образом мы подходим к понятию «коммерческости» — это вероятность интента «купить» у пользователя. При запросе «ноутбук» 30% пользователей хотят его приобрести, 70% — прочитать дополнительную информацию. Соответственно, в этом запросе 30% коммерческости. Значит, поиск должен выдать 30% страниц, которые дают возможность купить ноутбук.

Исходя из этого, все топы можно условно разделить на три типа: 

  • Коммерческие – те, которые состоят из коммерческих страниц. При запросе в поисковой выдаче показаны 10 сайтов, которые что-то продают.
  • Не коммерческие — информационный SERP. Такой топ содержит одни статьи.
  • Полукоммерческие — смешанный SERP. У Google есть аналог миксера Яндекс, когда топ поделен по тематикам. Выдача состоит из обоих типов URL. 

Соответственно, страницы делятся на: 

  • коммерческие — дающие возможность купить / продать /заказать, 
  • информационные — много контента, комментарии, UGC. 

На что это влияет? Во-первых, на распределение запросов по сайту, во-вторых — на уменьшение бюджета на контекст.

После теоретической части своего доклада Олег Саламаха перешел к практической. Докладчик показал участникам конференции поисковую выдачу Google по запросу Samsung Galaxy S5 и задал вопрос о количестве конкурентов по продаже девайса в топ-10.

Выяснилось, что в топ-3 по этому запросу попасть невозможно, так как первую позицию занимает сайт Samsung с обзорами, вторую – Rozetka, а третью – Яндекс.Маркет. На самом деле, в выдаче оказалось три конкурента: stylus, citrus и allo. Но у каждого из этих трех магазинов на странице, где можно купить товар, есть полотно текста с обзором. То есть, эти страницы и информационные, и коммерческие.

В Яндексе ситуация аналогичная. Выдача состоит из обзоров и отзывов, и лишь один сайт предлагает возможность купить товар, но выдача для Украины, а сайт – .ru. То есть, в Яндекс тоже нет смысла обращаться с этим запросом, с коммерческой страницей, если нет обзоров и комментариев. Но в Яндексе фактор коммерческости участвует в формуле ранжирования.

Олег Саламаха провел исследование: какие запросы считаются коммерческими и не коммерческими для интернет-магазинов. Смысл исследования заключается в том, что для запросов с низкой коммерческостью нужно продвигать скорее информационную страницу, чем коммерческую, тогда появится больше шансов попасть в топ именно по этому запросу.

Prodvigator.ua рассмотрел задачу по определению степени информационности и коммерческости для 30-40 млн запросов, чтобы дать пользователям возможность выбора, указывать ли запрос в системе как коммерческий или нет. 

Сложность заключается в количестве запросов: посчитать сложную формулу для каждого из них непросто, поэтому в компании искали готовые решения, которых оказалось очень мало. Готовое решение в 2003 году предлагала компания Microsoft, но оно больше не функционирует.

Первая статья, которая появилась в рунете по этому поводу, предлагала определить количество сайтов с физическим адресом в ТОПе. Предполагалось, что, если у сайта есть физический адрес, значит, это коммерческий сайт. Этот метод не очень правильно все показывал, и Prodvigator’у не подошел. В Яндекс утверждали, что они определяют на основе URL, который включает какие-то специфические слова. Например, присутствие слова products указывало на коммерческий сайт, forum и info – на информационный. Тесты этого способа показали очень плохие результаты.

Первая гипотеза исследования была о том, что можно взять пул из 100 фраз, связанных с высокочастотной целевой фразой, и посмотреть, каких фраз больше: коммерческих или информационных, подсчитать их доли и в итоге разграничить фразы на коммерческие и информационные. В Prodvigator воспользовались собственной базой фраз и поисковыми подсказками с определенным словом. Специалисты подсчитали проценты и увидели, что пользователь вкладывает в значение каждого слова. Но результаты очень плохо коррелировали с топом, так как проблема была рассмотрена с точки зрения пользователя, а не поисковой системы. Идея была неудачной, но в итоге специалисты получили алгоритм, по которому можно считать, какой у фразы процентный интент с точки зрения пользователей. Благодаря этому можно прогнозировать CTR в контекстной рекламе. При этом система учитывает частотность, умноженную на процент пользователей, которые хотят купить товар.

Вторая гипотеза исследования: нужно зайти на каждую страницу из топа и подумать, коммерческая она или нет; можно ли на ней купить что-либо, или там только информация. При этом нужно рассмотреть два фактора: на сколько процентов фраза коммерческая и на сколько – информационная. В качестве маркеров, которые определяли страницу как коммерческую, были выбраны кнопки «купить», «заказать», «доставить» и прочие. Также были подобраны фразы, характерные для интернет-магазинов и карточек товаров (цена, корзина, доставка и т. д.). У каждой фразы были свои коэффициенты, например, слово «корзина» имело меньший коэффициент, чем слово «цена». Такие же параметры были подобраны для информационности. Например, если на странице стоит реклама AdSence, с большой долей вероятности страница или сайт являются не коммерческими. Еще одним фактором информационности является большое количество текста. Его количество можно определить с помощью функционала readability https://pypi.python.org/pypi/readability-lxml, который помогает вырезать из страницы текст статьи. Количество символов чистого текста более 5000 указывает на информационный ресурс. Гипотеза не сработала, так как возникали проблемы, когда рассматриваемая страница была и информационной, и коммерческой. Например, когда на странице есть кнопка «купить» и большой текст. Еще одним недостатком способа можно считать большое время обработки: для одного запроса нужно зайти на 10 страниц, а таких запросов 30-40 млн, соответственно, нужно обработать 300-400 млн страниц, что не входило в планы и ресурсы компании.

В итоге специалисты получили нормальный парсинг и смогли определить, какая страница является карточкой товара, какая – карточкой каталога, какая – обзорной статьей. На основании этого уже можно сделать правильную перелинковку для интернет-магазина.

Третья гипотеза заключалась в многофакторной формуле и применении машинного обучения. Суммируя определенные параметры с учетом их коэффициентов, можно получить необходимую оценку: f1*k1+f2*k2+….fnkn = оценка. Так же работает поиск.

Среди факторов, влияющих на коммерческость — геозависимые фразы в Яндекс ,которые практически всегда являются коммерческими. В Google этот фактор не использовался.

Кроме того, есть множество других параметров. Задача состояла в том, чтобы не заходить на конечную страницу, а обойтись сохраненными SERP в Prodvigator, по которым и определить количество коммерческих и информационных страниц.

Обучение проводилось на заведомо коммерческих и информационных фразах. Плюс в «коммерческость» давали следующие факторы: 

  • купить/продать/заказать в тайтле или в SERP,
  • телефон в сниппете,
  • URL содержит каталог — catalog/cat/katalog, card, product, item.

Суммирование всех этих факторов давало итоговую оценку по коммерческости.

Факторы информационности: 

  • Wiki, УouTube,
  • слова-маркеры: обзор, вики, новости,
  • URL содержит слова news, info, blog, forum, article, help, wiki.

Сводя эти факторы, можно сделать вывод, на сколько запрос информационный и на сколько – коммерческий. В результате исследований был создан инструмент, определяющий, на сколько фраза является коммерческой и информационной. В настоящее время инструмент проходит тестирование.

Информационность и коммерческость также можно искать для группы фраз. Например, когда семантика уже сгруппирована по топам, фразы разбиты на группы и посчитана их коммерческость, можно принять решение, вести ли группу на информационную страницу или на коммерческую. При правильном выборе целевой страницы можно получить правильное распределение запросов и возможность продвинуться в топ.

Специалисты рассмотрели две группы запросов: первые запросы вели на страницы с карточками товаров, вторые – на страницу каталога товаров. В результате выяснилось, что карточки товара у поисковика являются менее коммерческими, чем категории. Значит, в карточки товара нужно добавить информацию, чтобы поиск их считал и информационными.

Пример подсчета модельных запросов показал разные показатели коммерческости для разных моделей. Это значит, кто карточка товара при низкой конкуренции может выйти в топ и без дополнительной информации, но при высокой конкуренции двигать карточку товара без обширного обзора и комментариев бессмысленно.

Коммерческость также является регионозависимой: в США большинство модельных запросов являются информационными. Можно тратить сколько угодно средств на продвижение запроса, но без продвижения карточки товара с обзором ничего не получится. Чтобы пробиться в топ, нужна «простыня» (большой текст).

Кроме того, выяснилось, что в SERP Google есть группы сайтов — информационная и коммерческая. Соответственно, сайт не конкурирует со всем топом, а только с отдельными коммерческими сайтами в нем. Важно понимать, что Google научился понимать интент пользователя: поисковик берет запрос, анализирует интенты и разбивает выдачу. Не проанализировав выдачу, нельзя понять, какие шаги нужно предпринять, чтобы попасть в нее.

Олег Саламаха ожидал, что после первого анализа какого-либо сайта, который ведет контекстную рекламу, и, соответственно, имея фразы из контекста, система Prodvigator сможет предложить выбирать некоммерческие фразы и приводить больше трафика за меньшие деньги. Но так не получилось, потому что интент «купить» есть у всех фраз. При наличии набора фраз, по которым сайт крутится в контексте, можно определить коммерческость каждой фразы и удалить фразы с супер-низкой коммерческостью, ничего не теряя, потому что у них нет интента «купить». Так можно экономить бюджет на пустых кликах, а остальные фразы принесут больше конверсии. Еще одна закономерность: фразы с низкой коммерческостью имеют низкий CTR. Конверсия зависит от тематики.

В заключение Олег Саламаха предложил участникам конференции принять участие в тестировании нового инструмента определения коммерческости поисковых запросов.