Автор: Кларк Бойд (Clark Boyd) – основатель Candid Digital, консультант по SEO, контекстной рекламе и контент-маркетингу. Разрабатывал стратегии продвижения для таких крупных брендов, как American Express, Adidas и ASOS.

Вы, скорее всего, слышали о скрытом семантическом индексировании (Latent Semantic Indexing, LSI). Этот термин довольно активно используется в SEO-индустрии, в том числе авторитетными представителями отрасли. Они утверждают, что применение этой концепции является ключевым фактором для успеха в органическом поиске.

Поиск по запросу [latent semantic indexing] возвращает результаты с таких широко известных сайтов, как HubSpot, утверждающих, что LSI повышает эффективность поисковой оптимизации и поднимает её на следующий уровень.

Итак, что же такое LSI? И есть ли доказательства того, что LSI действительно повышает эффективность SEO?

Чтобы ответить на эти вопросы, давайте исследуем происхождение LSI и то, что эта концепция значит для SEO (хотя, скорее, не значит) в 2018 году.

Удивительно, как много заблуждений связано с этой темой. В этой статье мы развенчаем теорию о том, что использование «LSI-ключевых слов» оказывает положительное влияние на SEO, и предложим несколько более эффективных стратегий взамен.

Что такое латентное семантическое индексирование?

Скрытая семантическая индексация, иногда называемая скрытым семантическим анализом, представляет собой математический метод, разработанный в конце 1980-х годов для повышения точности извлечения информации. LSI использует метод, называемый сингулярным разложением (англ. singular value decomposition, SVD), для сканирования неструктурированных данных в документах и определения отношений между содержащимися в нём концепциями.

По сути, он находит скрытые отношения между словами (семантикой), чтобы улучшить понимание информации (индексирование).

Появление этого метода представляло собой значительный шаг вперёд в области понимания текста, поскольку он учитывает контекстуальный характер языка.

Более ранние технологии не могли разобраться с синонимами, которые характеризуют использование естественного языка, а также изменениями в значениях, которые появляются в новом контексте.

Например, слова «hot» и «dog» могут казаться лёгкими для понимания, но оба имеют несколько определений, основанных на том, как они используются. Если поместить их вместе, то получится совершенно новая концепция – «хот-дог».

Итак, как мы можем обучить машину для адаптации к этим нюансам? Это проблема, которая волновала учёных и исследователей десятилетиями, а метод LSI помог компьютерам начать понимать естественный язык.

Лучше всего он работает на статическом контенте и небольших наборах документов, что отлично подходит для его первоначальных целей. LSI также позволяет группировать документы на основе их тематической общности, что было очень полезно для ранних поисковых систем.

Итак, LSI – это:

  • Технология, созданная в конце 80-х для извлечения информации в ответ на трудности с пониманием синонимов или многозначности, с которыми сталкивались более ранние технологии.
  • Специальный подход, который пытается постичь основную смысловую структуру в языке.
  • Метод, способный путём индукции выводить иерархические категории, в которые входят термины и понятия.
  • Метод, изначально полезный для работы с небольшими наборами статических документов.

Скрытое семантическое индексирование и SEO

Поскольку LSI позволяет поисковой системе понимать синонимы, то из этого логически следует, что использование синонимов во всём документе могло бы помочь поисковикам понять контент. А если поисковая система будет лучше понимать контент, то она также сможет индексировать и ранжировать его по целевым запросам.

Более того, использование синонимов может повысить тематическую релевантность контента в целом, что должно быть хорошо для SEO, не так ли?

Суть LSI-копирайтинга состоит в том, что добавление в текст синонимов для целевых ключевых слов повышает эффективность SEO. Иногда их даже называют «LSI-ключевиками».

В чём же проблема?

Нет никаких доказательств того, что это действительно так. Метод LSI, предположительно, сыграл определённую роль в разработке ранних поисковых систем.

Как сказал Роджер Монти (Roger Montti): «LSI – это учебные колёса для поисковых систем». Но нет никаких оснований полагать, что он играл эту роль в последнее время.

Тем не менее, некоторые специалисты считают, что пути Google и LSI с течением времени всё больше совпадают, когда на самом деле можно с большей уверенностью утверждать, что произошло противоположное.

Google, несомненно, хочет понимать контекст любого контента. Поле семантики (раздел лингвистики, изучающий смысловое значение единиц языка) является фундаментальной частью этого подхода.

Однако совершенно самонадеянно допускать, что присутствие «семантики» в фразе «скрытое семантическое индексирование» обнаруживает некую прямую и фундаментальную связь между этими двумя понятиями.

Есть веские основания полагать, что Google развился далеко за рамки этого метода и использует гораздо более сложные технологии машинного обучения для индексации документов и поиска информации.

В конце 2017 года Джей Ар Оукс (JR Oakes) на конференции TechSEO Boost представил интересную презентацию, которая развеивает некоторые мифы о современном поиске информации и заменяет их основанными на фактических данных подходами к пониманию того, как работает Google.

Несмотря на эти опровержения, в последнее время некоторые эксперты отрасли стали ещё активнее продвигать LSI, поскольку в отрасли всё чаще упоминаются достижения Google в области семантического поиска.

По иронии судьбы, это именно та лингвистическая путаница, которую Google пытается убрать с помощью своей технологии семантического поиска.

На чём нужно фокусироваться вместо LSI?

Оптимизация контента для видимости в органическом поиске эволюционирует в соответствии с развитием Google. При этом поисковые системы по-прежнему сталкиваются с трудностями в понимании значений слов в контексте. Однако есть более эффективные способы достижения этого, чем добавление LSI-фраз.

Прежде всего, важным компонентом современной SEO-стратегии являются структурированные данные. Чётко разметив данные, мы можем помочь поисковым системам индексировать и показывать наш контент в расширенных результатах по нескольким устройствам.

Концепция «лексической сочетаемости» также приобретает всё большее значение, поскольку поисковые системы идентифицируют слова, которые обычно используются вместе, для понимания того, как они соотносятся и взаимодействуют друг с другом для изменения смысла. Мы можем определить некоторые из этих терминов, исследуя продукты или услуги, которые мы хотим продвигать.

Вместо того, чтобы «мутить воду» с помощью синонимов, нам всем следует стремиться к большей ясности.

Блог Билла Славски (Bill Slawski) – отличный источник информации по этой теме. Например, там есть такой пост: Does Google Use Latent Semantic Indexing? («Использует ли Google скрытое семантическое индексирование?»). Спойлер: нет.

Остановите LSI-безумие!

LSI – это технология, которая представляла собой прорыв в области индексирования и извлечения информации, но это было в 1980-х. Сколько технологий тех годов вы всё ещё используете?

Поисковые системы, по своей сути, призваны индексировать и извлекать информацию. Однако нет никаких доказательств того, что Google использует LSI.

Существует аргумент, что даже если нет доказательств того, что Google использует LSI, добавление синонимов в контент не принесёт никакого вреда. Таким образом, стоит попробовать, так как нет убедительных доказательств того, что Google точно не использует LSI.

Контраргумент гласит, что многие виды деятельности относятся к одной и той же категории, но это не даёт им никаких преимуществ.

Вы можете изменить шрифт во всём тексте на Comic Sans на тот случай, если Google даст 1%-й толчок в ранжировании тем сайтам, которые рискнуть его использовать.

Следует учитывать и тот факт, что если теорию трудно проверить, её также трудно фальсифицировать.

На данный момент все доказательства указывают на то, что любое время, затраченное на использование «LSI-ключевых слов», лучше было бы потратить на понимание подлинного функционирования семантического поиска.

Есть также практические способы применения этих знаний.

Использование структурированных данных и понимание того, как совместное использование слов может способствовать индексированию контента, будут иметь гораздо большую ценность, чем добавление LSI-фраз.

Заключение

Многие умные люди заблуждаются в отношении LSI.

Если мы хотим развивать отрасль хорошо информированных SEO-профессионалов и digital-маркетологов (и я очень надеюсь, что мы это делаем), нам необходимо сосредоточиться на укреплении доверия посредством обмена научно обоснованными выводами.

Продвижение концепции «LSI-ключевых слов», возможно, никому не принесёт вреда в количественном смысле, но оно может поспособствовать подрыву доверия и привести к дальнейшим ошибкам в будущем.

Статьи по теме:

ИСТОЧНИКSearch Engine Journal
Редактор-переводчик. Специализируется на западном интернет-маркетинге и SEO. Освещает события в этой области с 2014 года.