LSI – оптимизация без ключевых слов

Автор: Алексей Чекушин – создатель сервиса Just-Magic.org

Что такое LSI, и с чем едят?

Говоря простым языком, LSI – это способ определения тематики текста по содержащимся в нем словам. Например, если в документе встречаются слова «зимняя», «протектор», «шипы» – то, вероятнее всего, это текст про шины. А если – «сковорода», «запекать», «соус» – то это что-то, относящееся к кулинарии.

...<Тут было длинное и подробное научное объяснение, что же такое LSI, но по причине его нудности переносим эту увлекательную часть в конец статьи, чтобы наши читатели не заснули в самом начале.>...

Как поставить LSI на службу SEO?

Опыт показывает, что LSI-тексты немного лучше ранжируются и гораздо реже попадают под спам-санкции. Однако, как проводить анализ? Откуда взять релевантные слова? Как оценить текст на соответствие тематике?

Хорошо, если копирайтер глубоко разбирается в вопросе, тогда LSI-текст получится сам собой. А что если нет? Тогда на помощь должна прийти автоматизация. Ниже поговорим о четырёх возможных подходах к ней:

Метод 1. Использование подсветок

Это то, что лежит на поверхности, и потому легко используется. Что подсвечивает поиск? Во-первых, это синонимы. Во-вторых, геоуказание (для геозависимых запросов) и в-третьих, какие-то тематичные слова. Например:

Зеленой рамкой выделены синонимы. Желтой – геоуказание.

И красной – дополнительные слова подсветки.

Но сколько слов мы можем «вытащить» из подсветок: от 3 до 5? Иногда чуть больше, но всегда меньше десяти. Для полноценного написания тематического текста это не годится. Поэтому профессионалы этот способ не используют.

Метод 2. Подсчет с использованием сторонних коллекций

«Спарсить весь интернет» – задача дорогостоящая, и для целей LSI – сродни забиванию гвоздей микроскопом. Ведь только один объём данных составит не один десяток террабайт. Плюс, нам придется столкнуться с задачей фильтрации спама и дублей.

Можно попробовать использовать уже готовые коллекции. Например – корпус русского языка или тексты «Википедии». Но здесь серьезную роль начинает играть специфика коллекции. Вряд ли литературные тексты или информационные статьи Wikipedia помогут нам в написании текста для коммерческой страницы, продающей дизельные генераторы.

Стоит отметить, что весьма неплохие результаты получил Рамблер, когда применил методику LSI к своей коллекции поисковых запросов.  Однако результаты получились, скорее, применимы для расширения семантики, чем для написания текстов.

Метод 3. Подсчет на основании топа Яндекса

Основная идея подхода состоит в допущении: если документы попали в топ Яндекса, значит они тематичны. И, в общем-то, это допущение в ряде случаев верно. Но поскольку LSI-слова сами по себе являются достаточно слабым фактором, то уже на средне-конкурентных запросах мы часто будем сталкиваться с некачественным топом. Как результат, попытка провести LSI анализ приведет не к бусту страницы, а только к копированию чужих ошибок.

К плюсам метода однозначно стоит отнести простоту реализации. Достаточно вытащить документы из топ-10 Яндекса и посчитать количество вхождений каждого слова в каждом из этих документов.

В качестве основных минусов подхода следует выделить неприменимость по отношению к средне- и низко-конкурентных запросам.

Метод 4. Подсчет с использованием всей коллекции Яндекса

Этот метод является наиболее точным, поскольку мы начинаем оперировать той же коллекцией, что и Яндекс. Скачивать интернет не требуется, более того, Яндекс уже проделал за нас определенную часть работы, исключив из поиска множество дублей и спама. Для поиска по своей коллекции он уже предоставил нам отличные инструменты в виде языка поисковых запросов.

На чем же построен метод с использованием коллекции Яндекса? Мы подаем к Яндексу запросы пытаясь построить 2 униграммные языковые модели:

  1. Модель порождения слова запросом.
  2. Модель порождения запроса словом.

Звучит сложно, но на самом деле принцип здесь - простой.

Модель порождения слова запросом сводится к ответу на вопрос: если в документе встретился запрос, какова вероятность встретить в нем слово? Например, если в документе встретился запрос «шины bridgestone», какова вероятность появления в нем слова «зимняя»?

Модель порождения запроса словом сводится к ответу на вопрос: если в документе встретилось слово, какова вероятность встретить в нем запрос? Например, если в документе встретилось слово «шипованная», какова вероятность обнаружить в нем же запрос «зимняя резина»?

На практике для комплексной оценки двух моделей получается недостаточно, и необходимо использовать третью – «нормализующую» модель, основанную на удалении терминов и запроса друг от друга. Это не соответствует принципам LSI, о которых я писал выше, но необходимо при работе с такой «грязной» коллекцией как веб-документы, где содержательные тексты не прошли очистку от «обвязки» в виде меню/хедеров/футеров и прочей служебной информации.

Именно на этом методе построены модули «Акварель» и «Акварель-генератор» в системе Just-Magic.org. Довольно забавно наблюдать, как система работает с анализом текстов. Например, практически из любого текста она готова сделать готовый словарь спичрайтера Владимира Владимировича. Читайте только зеленые слова:

(На скриншоте представлен анализ текста про керамзитобетонные блоки, который был проведен по запросу «владимир путин»)

При этом система практически не зависит от качества текстов в топе. Например, вот как отрабатывает по запросу «сауна на двоих» анализатор, основанный на топ-10:

А вот как это делает «Акварель»:

Как можно заметить, «Акварель» «не поддалась» на часто встречающиеся в топе слова и забраковала их, как нерелевантные. Также качество топа не сказывается на результатах работы «Акварель-генератора», который создает список релевантных слов и словосочетаний. Вот примеры словосочетаний, которые он находит по данному запросу:

  • романтический ужин
  • русская баня
  • финская сауна
  • турецкого хаммама
  • комфортного отдыха
  • романтического вечера

Несмотря на явные плюсы, подобный метод имеет и свои минусы. Во-первых, он очень ресурсоемок: на проверку одного слова тратится 3 XML-запроса; а на составление списка при помощи «Акварель-генератора» уходит в среднем 2300 XML-запросов. В итоге проверка таким способом получается значительно дороже остальных, которые сегодня доступны практически бесплатно.

Во-вторых, метод чувствителен к среднему качеству коллекции текстов в интернете. Например, для запроса «синхрофазотрон» он определит слово «является» как очень релевантное, из-за того, что фраза «не всякий  синхрофазотрон  является коллайдером», часто встречается в интернете. Ну а попытка создать/проверить информационную статью по запросу «покраска бампера ваз» заведомо обречена на провал из-за засилья коммерческих текстов по данному запросу.

Как применять LSI?

На практике применение подхода LSI может использоваться в двух случаях: когда есть необходимость простимулировать дополнительный «пинок» по высококонкурентным запросам и обеспечить защиту сайта от текстового спам-фильтра.

Почему так получается? LSI-слова – достаточно слабый фактор по сравнению с теми же вхождениями, поэтому к ним стоит обращаться, когда вся базовая оптимизация уже проведена. Как её делать я подробно описывал в своей статье «Непорочное продвижение».

По высококонкурентным запросам нам приходится «давить» сразу всеми факторами, ибо в условиях большого их числа и нормализации каждого (приведения в интервал от 0 до 1) результат по ВК-запросам будет только при оптимизации всех вещей, до которых можем дотянуться.

Что же касается защиты от спам-фильтров, то это основная задача, ради которой задумывалась система. В спам-алгоритмах LSI имеет куда более значительный вес, чем в ранжировании. И если ваш сайт уже попал под санкции – переписывание текстов при помощи «Акварели» или аналогичных LSI-инструментов позволяет выйти из под санкций. А изначальное их написание с использованием LSI – не дает под них попасть.

Дополнение к статье, которое было ее началом

Что скрывается под аббревиатурой LSI?

Если объяснять простым языком, LSI – это способ определения тематики текста и группировки текстов по тематичности. Метод основан на анализе взаимосвязей между коллекцией документов и терминами (словами), которые в них содержатся.

Каковы основные принципы LSI?

  1. Текст представляется в виде «мешка слов»: то есть, порядок слов в и их близость друг к другу значения не имеют.
  2. Документ относится к той или иной тематике/группе на основании терминов (слов), которые в нем содержатся и частоты этих терминов (количества раз, которые они встречаются в документе).
  3. Каждое слово имеет единственное значение. Это не совсем корректное допущение, но оно необходимо для построения модели.

Что делает LSI?

Анализирует большой объём документов и на основе встречающихся в них слов относит документ к той или иной тематике.

Как технически работает LSI?

Фактически это сингулярное разложение терм-документной матрицы, которое позволяет выловить ключевые составляющие этой матрицы и проигнорировать шумы. Но не будем о сложном и неприменимом, а для желающих разобраться предлагаю хорошую статью про LSI на habrahabr.

//coub.com/embed/bbjr7?muted=false&autostart=false&originalSize=false&startWithHD=false

7 простых способов получить email-подписки через сайт

Автор: Дев Шарма (Dev Sharma) – создатель знаменитой платформы для создания сайтов и блогов WordPress, основатель WPKube.com – блога, посвященного работе с WordPress
preview Распространённые ошибки веб-мастеров при борьбе со взломом и заражением сайтов

Распространённые ошибки веб-мастеров при борьбе со взломом и заражением сайтов

Ежедневно мы получаем большое количество писем от начинающих веб-мастеров, которые просят дать рекомендации по лечению сайтов от вирусов и защите от взлома
preview Поймать многорукого бандита

Поймать многорукого бандита

14 сентября 2015 года Яндекс объявил о новом подходе к определению релевантности документов
preview Даешь доступный коллтрекинг! И другие тренды года

Даешь доступный коллтрекинг! И другие тренды года

Автор статьи: Матиков Максим – российский предприниматель, основатель сервиса QUON, позволяющий автоматизировать ведение рекламных кампаний и одновременно проводить анализ их...
preview Искусственная семантика для коммерческих проектов

Искусственная семантика для коммерческих проектов

Искусственная семантика – это семантическое ядро, сформированное искусственно, на основе изучения реальной семантики и формирования прогноза о том, как будут выглядеть...
preview Искусственная семантика для некоммерческих проектов

Искусственная семантика для некоммерческих проектов

Искусственная семантика – это семантическое ядро, сформированное искусственно, на основе изучения реальной семантики и формирования прогноза о том, как будут выглядеть...