Алексей Чекушин: Роботы должны работать, а человек - думать

19 апреля 2015

1247

Сервис автоматизации just-magic.org запустил модуль оценки качества и тематичности текста «Акварель». Он позволяет оценить, насколько каждое из слов текста соответствует основному запросу страницы. Воспользоваться им можно, пройдя регистрацию в системе и введя в личном кабинете промо-код AQUA-REL.

Впервые модуль был представлен на международной конференции по интернет-маркетингу «Неделя Байнета 2015», проходившей с 14 по 17 апреля 2015 года в Конгресс-холле гостиницы «Президент-Отель» в Минске.

Прежде, чем приступить к подбору семантики для сайта, надо ответить на вопрос: «Зачем?» Сбор семантики нужен для двух вещей – построения структуры и оптимизации страниц. В обоих случаях есть масса неочевидных нюансов: например, структура сайта.

Казалось бы, все очевидно, но на простой вопрос: «Сколько нужно сайту главных страниц?» – 99% оптимизаторов отвечает, что одна. Однако, во многих случаях это не так. Иногда для целей продвижения приходится создавать более тысячи главных страниц.

Далее следует сосредоточиться на оптимизации страниц. Прежде всего, это должна быть текстовая оптимизация. Она сильно зависит от того семантического ядра, которое туда заложено. Важно, чтобы запросы были совместимыми между собой. Следовательно, нужна автоматизация.

Для решения этих задач и была придумана кластеризация (а упрощение обработки списка запросов – лишь приятный побочный эффект). Принцип подхода сводится к следующему утверждению: «Если в ТОПе выдачи присутствуют несколько URL-ов по этим запросам, то попасть туда можем и мы».

Однако, методика далеко не универсальна. Есть ряд проблем.

Самая важная, которую «не заметили» проектировщики абсолютного большинства инструментов – это «Проблема трёх», порождаемая центроидным принципом группировки. Запрос А может быть попарно совместимым с запросами В и С, однако запросы В и С – могут оказаться несовместимыми между собой, и кластер A-B-C нельзя формировать. Существует несколько методов обхода этой проблемы, но все они повышают сложность вычислений до кубической (для стандартной кластеризации – она квадратичная).

Следующая задача сводится к поиску ответа на вопрос: «А у нас такая страница есть?». Не любой получаемый кластер можно посадить на любую страницу. Для кластера может потребоваться главная страница или определенный тип контента. Часто возникают ситуации, когда страницы нужного типа на сайте не находится и ее сажают на неподходящий. Что приводит к отсутствию результата.

Третья проблема – группировка по URL-ам – достаточное условие для объединения запросов, но не необходимое. Группы запросов можно (и часто нужно) объединять, даже если у них нет общих URL-ов в выдаче. Основные условия – принадлежность к одному типу страниц – главная/не главная, коммерческая/информационная, одинаковые маркеры контента. При этом оптимизатору приходится следить за лингвистической составляющей объединяемых групп, чтобы была возможность провести последующую оптимизацию страницы.

При наличии большого количества кластеров возникает следующий вопрос: «Каким образом будет осуществляться постраничное распределение?»

Два наиболее часто используемых метода: привязка к тому, что находится на данный момент в ТОПе и через поиск по сайту? Оба метода дают слабые результаты. Исследования показали, что до 30% трафика из поисковых систем приходится на нерелевантные страницы.

Поэтому «клеить» запросы к тому, что в ТОПе – не имеет смысла. Особенно если текущая позиция по запросу находится за пределами топ-10. Осуществлять распределение ключевых слов, используя поиск по сайту, не стоит по тем же причинам.

Более удачным представляется использование запросов – «маркеров». В этой методике осуществляется распределение вручную некоторого числа запросов по страницам (хотя бы, по одному), а затем – привязка к ним кластеров по принципу: если один из запросов кластера является «маркером» данной страницы – следует привязывать кластер целиком. Можно использовать более одного «маркера» на страницу и привязывать тем самым более одного кластера. Однако тут стоит крайне внимательно отнестись к вопросу совместимости маркеров. Даже порядок слов в запросе может иметь значение. Например, [билеты Москва-Минск] и [билеты Минск-Москва].

Существуют также методологии, когда этапы предварительного сбора и кластеризации запросов пропускаются, и выполняется сразу поиск и привязка кластеров на основании подготовленных для сайта «маркеров». Такой подход возможен при наличии очень большой базы запросов с заранее собранными SERP. Тогда на вход системы автоматизации подается список «маркеров», а она самостоятельно подбирает по ним релевантные запросы. В частности, такой принцип работы реализован в системе just-magic. С одной стороны, это позволяет ускорить работу и увеличить качество собранной семантики (все неочевидные формулировки и синонимы также будут привязаны), но требует больших вычислительных мощностей и наличия большой базы запросов. Эксперименты показали, что для коммерческих тематик необходимо 70-100 млн запросов с актуальными SERP. Для сравнения, системы анализа видимости конкурентов обычно оперируют цифрами в 10-15 млн. запросов.

Однако, не всегда «маркеры» можно привязать к сайту. Если «все плохо» (сайт кривой, информационный, и вообще новостник/UGC), то их (маркеров) выявление можно сделать на основе пользовательской статистики. Для этого потребуется Яндекс.Метрика, поисковый трафик на сайт и собственно формула, которая будет определять соответствие запроса документу по выгруженной статистике. Эксперименты показали, что точность определения можно довести до 85-90% даже на неструктурированных UGC-сайтах.

После побора семантики для сайта, наступает этап текстовой оптимизации. За прошлый год ситуация с публичными сервисами автоматизации этой части практически не поменялась, хотя с отключением ссылочного значимость этой работы сильно возросла.

Одной из насущных проблем текстовой оптимизации является «вода». Существующие на прошлый год механизмы избавления от нее были весьма примитивны – списки запрещенных слов для копирайтеров, выявление доли служебных частей речи и проверка редактором.

Однако все можно автоматизировать. Для решения данной задачи необходимо понять, насколько часто тот или иной термин употребим в контексте темы текста. Переводя это на технический язык: необходимо восстановить языковую модель из коллекции текстов тематики.

Первая же возникающая проблема «А где нам каждый раз брать коллекцию?» Очевидное решение – в использовании базы поиска как наиболее полной и актуальной. Но что при этом считать релевантным документом? Очевидно, это документ прошедший «кворум». Слово «кворум» не случайно взято в кавычки, т.к. классический кворум от поисковой системы в данном случае не подходит – он не накладывает ограничений на межсловные расстояния, т.к. работает с «мешком слов». Необходимо модифицировать запрос.

Но этим дело не ограничивается. Необходимо также задуматься, насколько часто слово встречается во всей коллекции. Возможно, оно просто есть в большинстве текстов и тогда его использование не будет тематичным.

Также, нужно следить за удаленностью слов в документах коллекции от запроса. На многих сайтах есть ссылки «главная» и «контакты», но это не значит, что эти слова должны быть помечены как тематические.

И наконец, представление результатов. Полученные цифры по словам необходимо правильным образом нормировать (пороги нормировки будут зависеть от запроса) и вывести понятным для пользователя способом.

При разработке сервиса было решено маркировать слова градиентом от красного до зеленого. Красный – не подходящее слово, зеленое – подходящее.

Работу алгоритма можно продемонстрировать, взяв два абсолютно разных запроса [Пластиковые окна] и [Владимир Путин] для одного текста. Интересно то, что по двум запросам можно найти пересекающиеся ключевые слова. А слова из второго текста, выделенные зеленым маркером, – готовый набор спичрайтера.

Представленный алгоритм использует 3 XML-запроса на одно слово. Она хорошо работает для 2-х и 3-х словных запросов. По результатам экспериментов, однословные запросы оказались слишком общими для анализа из-за омонимий и многозначности контекста. Например, «такси». Это может быть услуга такси, фильм и даже название радиостанции. Вычленить правильный контекст можно только при добавлении второго слова в запрос.

В качестве системы автоматического подбора семантики для сайта целесообразно использовать новый сервис Just-Magic. Он позволяет собирать семантику для существующих страниц сайта, сразу правильно привязывая запросы к ним; расширять существующую структуру сайта; предлагать тематическую семантику для новых страниц сайта на основании текущего семантического ядра; создавать семантику для проектируемого сайта; кластеризовать запросы, включая тематическое разбиение. А также – оценивать слова текстов сайта на тематичность.

Наконец, имеет смысл затронуть тему проверки сайтов на аффилированность. Аффилиаты не показываются одновременно по одному запросу. Тогда создается такой запрос, по которому будут показываться оба сайта. Схема создания такого запроса проста: одинаковые слова и фразы в контенте + фиксация словоформ + порядок слов + обязательность вхождения = новый запрос. Именно так можно выявить сайты, принадлежащие одной компании и продвигаемые по одинаковому списку запросов.

Иными словами, роботы должны работать, а человек – думать.

Алексей Чекушин: Роботы должны работать, а человек - думать

SEO конференция 2015: Доверие в эпоху семантического поиска

SEO конференция 2015: Мария Моева #длямобильных

МИНУСинск, или Империя наносит ответный удар

Станислав Поломарь: Оптимизация «по полочкам»

Михаил Сливинский: «Заметки на полях»

Роман Рыбальченко: Аналитика вне Google Analytics на основе баз данных