BalticDigitalDays 2015: Как достичь максимальной текстовой релевантности

198

13-14 августа 2015 года в Калининграде проходит третья ежегодная конференция по интернет-маркетингу и заработку в сети Baltic Digital Days 2015. Организатор мероприятия – Дмитрий Шахов (РЕМАРКА).

Мероприятие традиционно посвящёно установлению деловых контактов и полезным докладам, каждый из которых имеет практический уклон и содержит методику для внедрения. Спикерами конференции являются как известные личности в профессиональной среде, так и новички.

В рамках работы секции «Аналитика и исследования» состоялось выступление руководителя SEO-отдела компании «Пиксель Плюс» Дмитрия Севальнева на тему: «Максимум текстовой релевантности сегодня: факторы, практические рекомендации».

IMG_1089.JPG

Основные факторы текстового ранжирования

По мнению докладчика, в последнее время текстовые факторы заметно влияют на позиции сайта в поисковой выдаче. При этом также важны текстовые характеристики хоста. Понижение позиций ресурса может быть вызвано текстовой переоптимизацией на этом уровне.

Все текстовые факторы можно разбить на следующие группы:

  • «Частотные» по отдельным словам;
  • Взаимное расположение и позиции слов;
  • Качество и общие параметры текста;
  • Хостовые (уникальность, спамность);
  • Факторы антиспама;
  • Соответствие языковой модели.

Встречаемость слов и их вес

Значимость факторов

Спикер отметил, что чем чаще встречается ключевое слово в запросе, тем менее оно ценно для поисковой системы и наоборот. Понять вес ключевого слова можно путём оценки документа в коллекции. Как это сделать, показано на слайдах ниже:

формула.PNG

idf.PNG

Факторы на базе TF-IDF

К значимым факторам этого типа докладчик отнёс следующие:

tf_idf.PNG

насыщение.PNG

Общие рекомендации по этой группе факторов выглядят так:

  1. Больше вхождений – выше релевантность.
  2. Насыщение после 6-9 вхождений (зависит от объёма текста).
  3. Ставка на слова с бо́льшим весом.
  4. Вхождение всех слов во все зоны документа.

Что касается других факторов, для ранжирования также важно учитывать взаимное расположение слов из запроса относительно друг друга в тексте; словоформу (совпадение формы слова) и позицию слов в документе (относительно его начала).

Модель «bag-of-words» («мешок слов») не позволяет всё это учесть. Следовательно, важными становятся и другие группы факторов, отметил докладчик.

Фразовые соответствия

Всего выделяют три типа соответствия ключевых слов:

  • Phrase – все слова из поискового запроса встречаются в документе подряд.
  • Strict – все слова из поискового запроса есть в документе с учётом контекстных ограничений.
  • All – все остальные найденные документы.

Эволюционно в Яндексе потребность в соответствии типа phase менялась согласно числу найденных по нему результатов. По мнению докладчика, именно этот тип соответствия в настоящее время наиболее благоприятный для ранжирования.

Учёт близости слов

Значимыми факторами этого типа являются:

учёт близости слов.PNG

Синонимы

После ввода в поисковую систему запрос перерабатывается («переколдовывается»). Затем поисковик определяет факторы запроса, в том числе «СНС»/ «без СНС», язык, геозависимость, основные поисковые интенты и т.п.

спектр.PNG

Учёт синонимов

Значимыми факторами этого типа являются:

синонимы.PNG

Достоверную проверку синонимов можно провести следующим образом:

  1. Поиск документа без слов запроса, но с предполагаемым синонимом [продвижение сайта ~~ раскрутка ~~ seo ~~ москва].
  2. Поиск по исходному слову с оператором «url» [раскрутка сайтаurl:site.ru/dir/] (исключаем «СНС» с помощью ~~ ываывоатыват).
  3. Находится ли документ?

Статические языковые модели

Докладчик выделил два типа статических языковых моделей, используемых для разных целей:

  1. Какова вероятность, что после фразы будут идти определённые ключевые слова. Эта модель используется для распознавания речи, переводов. Например, после фразы: «Лето – это маленькая…» будут идти «жизнь», «смерть»…?
  2. Если слова «панда» и «поиск» встретились в тексте три и один раз соответственно, какова вероятность, что текст посвящён тематикам: «Зоология», «SEO», «Кино», …? Эта модель используется в информационном поиске и тематической классификации документов.

Антиспам vs ранжирование

Следующая часть выступления Дмитрия Севальнева была посвящена текстовому антиспаму.

Основные задачи текстового антиспама:

  • Выявление переоптимизированных текстов и применение текстовых антиспампост-фильтров.
  • Выявление откровенного спама (машинописный текст, синонимайзеры, автоматический перевод
  • Поиск спамных хостов (неуникальные тексты).

При этом докладчик отметил, что чаще всего сайты попадают под фильтры за переоптимизацию контента.

антиспам_вм 25.PNG

сдвиг.PNG

частота.PNG

Что касается объёма размещаемых материалов, Дмитрий рекомендовал слушателям находиться в зоне «небольших текстов», размер которых не превышает 2300 символов. Обоснование – на слайде ниже:

2300.PNG

Рекомендации для SEO-специалистов по анализу текстов

Анализируя тексты, докладчик предложил слушателям придерживаться следующих правил:

  1. Вхождение всех слов – обязательно.
  2. «Подспамливать» лучше более тяжелым словом – это более эффективно (см. слайд «Почему «портянки рулили?»)
  3. При числе вхождений 6-9 итоговые значения близки к оптимальным.
  4. Можно сократить число необходимых вхождений путём урезания объёма текста.
  5. Пороги антиспам-фильтров постоянно сдвигаются – лучше немного недобрать, чем перебрать.

Практические рекомендации по формированию ТЗ для копирайтера

Ниже перечислены основные факторы для управления – это классические факторы, которыми оперируют SEO-специалисты. В их число входят:

  • Объём текста.
  • Процент вхождений каждого слова.
  • Процент вхождений каждого из синонимов.
  • Вхождение фраз и морфология.
  • Структура и оформление текста: наличие списков, картинок, подзаголовков.
  • Наличие специализированных терминов, задающих тематику и их количество.
  • Распределение ключевых фраз по объёму.

Как собрать данные для технического задания, показано на слайде ниже:

тз.PNG

При формировании задания следует указать следующие параметры:

  1. Объём текста: от 800 знаков достаточный для вхождения нужного количества ключевых фраз (без превышения порогов по спаму).
  2. Ограничение на использование слов «сверху»: необходимо задать ограничение на использование тех слов, которыми текст может быть переспамлен. Оптимально установить ограничение на уровне около 2% от планируемого количества слов в тексте (объём без пробелов разделить на 6,5).
  3. Минимальное использование слов: ограничивается число вхождений каждого слова «снизу». Его нужно задавать с помощью ключевых фраз (затребовать использовать нужное количество каждого из слов). В этом случае все слова будут употреблены в нужном виде и последовательности.
  4. Структура текста. Необходимо заранее определить основную мысль текста и его структуру. При этом нужно опираться на семантику и слова, задающие тематику.
  5. Пост-проверка текста: проверка на основные ошибки и соответствие техзаданию.

Основные ошибки, допускаемые оптимизаторами при постановке ТЗ:

  • Слишком много ключевых фраз.
  • Слишком мало ключевых фраз (слова из продвигаемых запросов встречаются менее 3 раз).
  • «Корявые» ключевые фразы.
  • В ключевых фразах отсутствуют синонимы слов из запроса и топоним (для ГЗ-фраз).
  • Очень сложное задание.
  • Не заданы тематические слова.
  • Структура текста не продумана.

Ниже – примерный шаблон техзадания для копирайтера, предложенный докладчиком:

шаблон.PNG

Рекомендации

В заключительной части своего доклада Дмитрий Севальнев предложил ещё несколько советов по достижению максимальной текстовой релевантности:

  1. Для вывода конкурентных запросов в ТОП требуется обязательно производить «тонкую юстировку» текстовых факторов.
  2. При размещении текста и его написании не забывайте про здравый смысл и пользователей.
  3. Не превышайте порог в примерно 2% вхождений и не раздувайте объем (≤ 550 слов для коммерческих запросов). Это важно, так как фиксируются регулярные сдвиги порогов срабатывания антиспам-фильтров.
  4. Важно понимать, что поиск оперирует более чем 50 факторами, связанными с текстом.
  5. Текст нужно проверять на корректность и соответствие требованиям SEO.
Редактор-переводчик. Специализируется на западном интернет-маркетинге и SEO. Освещает события в этой области с 2014 года.