IBC Russia 2014: «Алгоритмы автоматизированного составления и группировки семантических ядер»

С 27 по 28 ноября 2014 года, в Москве проходила крупнейшая отраслевая конференция для рынков интернет-маркетинга и веб-разработки «Интернет и Бизнес. Россия». Объединяя в себе такие многолетние и известные проекты, как «Сайт» и Optimization, Конференция «IBC Russia» стала ответом на заинтересованность бизнеса в единой экспертной площадке. Мероприятие организовано компанией «Ашманов и партнеры» совместно с Российской ассоциацией электронных коммуникаций.

На втором дне конференции в рамках секции «Инструменты и автоматизация продвижения сайтов» состоялось выступление Николая Хиврина (ALTWeb Group), на тему: «Алгоритмы автоматизированного составления и группировки семантических ядер»

По заявлению Николая Хиврина, сегодня на рынке не так много комплексных решений в области автоматизированного составления и группировки семантических ядер. Данный вывод был сделан на основе анализа 200 различных сервисов, существующих на рынке.

При работе с семантикой важно решить 3 главные задачи:

  • Составить базу запросов.
  • Составить семантическое ядро.
  • Произвести группировку семантического ядра.

Однако сегодня при разработке семантического ядра сайта важно учитывать такой фактор, как привязка к регионам. Работая над проектом, на первом этапе имеет смысл просто собирать запросы, а уже затем пытаться наложить их на разные регионы и страны. Поскольку каждый регион характеризуется особой спецификой спроса. С проблемой работы с семантикой в регионах могут сталкиваться не только сайты крупных интернет-магазинов, но и ресурсы больших информационных проектов. Для них «перекос» по регионам может быть масштабным.

Прежде, чем приступать к формированию семантического ядра для определенного региона, имеет смысл провести следующую классификацию: страна; федеральный округ, штат; область; город.

При этом важно знать:

  • В какие регионы входит город.
  • Количество жителей и проникновение интернета.
  • Удаленность от других регионов.
  • Область на карте.

Важно привязывать запросы к определённым местностям – это существенно повысит эффективность.

При этом, разрабатывая семантику по каждому региону, важно знать:

  • Популярность запроса в поисковых системах.
  • Наличие запроса в поисковых подсказках региона.
  • Долю геонезависимых результатов.
  • Долю коммерческих сайтов.
  • Долю спектральных результатов.

Чтобы обеспечить получение достоверных региональных результатов поиска для крупного проекта, нужно иметь большую базу региональных прокси-серверов, по которым можно отследить запросы в каждом из регионов. Однако это не так просто реализовать.

Если исходить из приведённых данных, то количество запросов – теоретически может рассчитываться так: 100 млн. запросов * 30 дней = 3 млрд. запросов в месяц. Если бы запросы набирались равномерно по 5 раз в месяц, то их было бы 600 млн. единиц. Однако есть и популярные запросы. Для России база запросов составляет примерно 50 млн. штук; в англоязычной выдаче – примерно 110 млн. единиц запросов.

Также важно обрабатывать и случайные запросы (хвост) – для ряда магазинов они приводят трафик. Важно делать вероятностные проверки для запросов без статистики, проводить тесты на нахождение сайта по случайному запросу.

Далее спикер рассмотрел тонкости составления семантического ядра на базе собранных запросов. На первом этапе работы имеет смысл осуществлять поиск запросов из видимости конкурентов. Маркетолог должен составить список конкурентов, который впоследствии необходимо расширять.

Размеры семантических ядер для разных проектов – различны:

После того, как семантическое ядро на базе собранных запросов составлено, осуществляют кластеризацию. Произвести группировку можно как вручную, так и с использованием автоматики. Автоматическая кластеризация реализуется следующим образом:

Пример вычисления может выглядеть так:

Алгоритм пошаговой кластеризации может выглядеть следующим образом: последовательно смягчаем критерии кластеризации; последовательно выбираем запросы из семантики; относим запрос к уже существующему кластеру (запрос совместим со всеми или счастью слов из кластера). Далее создается новый кластер.

При этом важно понимать, что в кластеризации нет никакого смысла без последующего мониторинга? Задачи монитроинга должны сводиться к следующему:

  1. Поиск новых запросов и их кластеризация;
  2. Многоуровневая кластеризация или фильтрация (к примеру, все запросы со словом «купить» или все запросы, по которым путь страницы начинается с “/for_home/”;
  3. Анализ средневзвешенного значения по кластеру (позиция, трафик, конверсия).

На заключительной стадии производится оценка объёма данных:

«Наконец, в кластеризации нет никакого смысла, если данные не будут интегрированы с системой веб-аналитики. Необходимо измерять абсолютно все», – подытожил докладчик.

Редактор-переводчик портала Searchengines.ru, работает на сайте с 2010 года. Специализируется на западном интернет-маркетинге, новостях социальных сетей и поисковых систем. Постоянно принимает участие в профильных семинарах и конференциях в качестве журналиста-обозревателя. Языки: английский, французский.