BalticDigitalDays 2015: Как достичь максимальной текстовой релевантности

14 августа 2015

Анна Бондарь

856

13-14 августа 2015 года в Калининграде проходит третья ежегодная конференция по интернет-маркетингу и заработку в сети Baltic Digital Days 2015. Организатор мероприятия – Дмитрий Шахов (РЕМАРКА).

Мероприятие традиционно посвящёно установлению деловых контактов и полезным докладам, каждый из которых имеет практический уклон и содержит методику для внедрения. Спикерами конференции являются как известные личности в профессиональной среде, так и новички.

В рамках работы секции «Аналитика и исследования» состоялось выступление руководителя SEO-отдела компании «Пиксель Плюс» Дмитрия Севальнева на тему: «Максимум текстовой релевантности сегодня: факторы, практические рекомендации».

Основные факторы текстового ранжирования

По мнению докладчика, в последнее время текстовые факторы заметно влияют на позиции сайта в поисковой выдаче. При этом также важны текстовые характеристики хоста. Понижение позиций ресурса может быть вызвано текстовой переоптимизацией на этом уровне.

Все текстовые факторы можно разбить на следующие группы:

«Частотные» по отдельным словам;
Взаимное расположение и позиции слов;
Качество и общие параметры текста;
Хостовые (уникальность, спамность);
Факторы антиспама;
Соответствие языковой модели.

Встречаемость слов и их вес

Значимость факторов

Спикер отметил, что чем чаще встречается ключевое слово в запросе, тем менее оно ценно для поисковой системы и наоборот. Понять вес ключевого слова можно путём оценки документа в коллекции. Как это сделать, показано на слайдах ниже:

формула.PNG

Факторы на базе TF-IDF

К значимым факторам этого типа докладчик отнёс следующие:

насыщение.PNG

Общие рекомендации по этой группе факторов выглядят так:

Больше вхождений – выше релевантность.
Насыщение после 6-9 вхождений (зависит от объёма текста).
Ставка на слова с бо́льшим весом.
Вхождение всех слов во все зоны документа.

Что касается других факторов, для ранжирования также важно учитывать взаимное расположение слов из запроса относительно друг друга в тексте; словоформу (совпадение формы слова) и позицию слов в документе (относительно его начала).

Модель «bag-of-words» («мешок слов») не позволяет всё это учесть. Следовательно, важными становятся и другие группы факторов, отметил докладчик.

Фразовые соответствия

Всего выделяют три типа соответствия ключевых слов:

Phrase – все слова из поискового запроса встречаются в документе подряд.
Strict – все слова из поискового запроса есть в документе с учётом контекстных ограничений.
All – все остальные найденные документы.

Эволюционно в Яндексе потребность в соответствии типа phase менялась согласно числу найденных по нему результатов. По мнению докладчика, именно этот тип соответствия в настоящее время наиболее благоприятный для ранжирования.

Учёт близости слов

Значимыми факторами этого типа являются:

учёт близости слов.PNG

Синонимы

После ввода в поисковую систему запрос перерабатывается («переколдовывается»). Затем поисковик определяет факторы запроса, в том числе «СНС»/ «без СНС», язык, геозависимость, основные поисковые интенты и т.п.

спектр.PNG

Учёт синонимов

Значимыми факторами этого типа являются:

синонимы.PNG

Достоверную проверку синонимов можно провести следующим образом:

Поиск документа без слов запроса, но с предполагаемым синонимом [продвижение сайта ~~ раскрутка ~~ seo ~~ москва].
Поиск по исходному слову с оператором «url» [раскрутка сайтаurl:site.ru/dir/] (исключаем «СНС» с помощью ~~ ываывоатыват).
Находится ли документ?

Статические языковые модели

Докладчик выделил два типа статических языковых моделей, используемых для разных целей:

Какова вероятность, что после фразы будут идти определённые ключевые слова. Эта модель используется для распознавания речи, переводов. Например, после фразы: «Лето – это маленькая…» будут идти «жизнь», «смерть»…?
Если слова «панда» и «поиск» встретились в тексте три и один раз соответственно, какова вероятность, что текст посвящён тематикам: «Зоология», «SEO», «Кино», …? Эта модель используется в информационном поиске и тематической классификации документов.

Антиспам vs ранжирование

Следующая часть выступления Дмитрия Севальнева была посвящена текстовому антиспаму.

Основные задачи текстового антиспама:

Выявление переоптимизированных текстов и применение текстовых антиспампост-фильтров.
Выявление откровенного спама (машинописный текст, синонимайзеры, автоматический перевод
Поиск спамных хостов (неуникальные тексты).

При этом докладчик отметил, что чаще всего сайты попадают под фильтры за переоптимизацию контента.

антиспам_вм 25.PNG

сдвиг.PNG

частота.PNG

Что касается объёма размещаемых материалов, Дмитрий рекомендовал слушателям находиться в зоне «небольших текстов», размер которых не превышает 2300 символов. Обоснование – на слайде ниже:

Практические рекомендации по формированию ТЗ для копирайтера

Ниже перечислены основные факторы для управления – это классические факторы, которыми оперируют SEO-специалисты. В их число входят:

Объём текста.
Процент вхождений каждого слова.
Процент вхождений каждого из синонимов.
Вхождение фраз и морфология.
Структура и оформление текста: наличие списков, картинок, подзаголовков.
Наличие специализированных терминов, задающих тематику и их количество.
Распределение ключевых фраз по объёму.

Как собрать данные для технического задания, показано на слайде ниже:

тз.PNG

При формировании задания следует указать следующие параметры:

Объём текста: от 800 знаков достаточный для вхождения нужного количества ключевых фраз (без превышения порогов по спаму).
Ограничение на использование слов «сверху»: необходимо задать ограничение на использование тех слов, которыми текст может быть переспамлен. Оптимально установить ограничение на уровне около 2% от планируемого количества слов в тексте (объём без пробелов разделить на 6,5).
Минимальное использование слов: ограничивается число вхождений каждого слова «снизу». Его нужно задавать с помощью ключевых фраз (затребовать использовать нужное количество каждого из слов). В этом случае все слова будут употреблены в нужном виде и последовательности.
Структура текста. Необходимо заранее определить основную мысль текста и его структуру. При этом нужно опираться на семантику и слова, задающие тематику.
Пост-проверка текста: проверка на основные ошибки и соответствие техзаданию.

Основные ошибки, допускаемые оптимизаторами при постановке ТЗ:

Слишком много ключевых фраз.
Слишком мало ключевых фраз (слова из продвигаемых запросов встречаются менее 3 раз).
«Корявые» ключевые фразы.
В ключевых фразах отсутствуют синонимы слов из запроса и топоним (для ГЗ-фраз).
Очень сложное задание.
Не заданы тематические слова.
Структура текста не продумана.

Ниже – примерный шаблон техзадания для копирайтера, предложенный докладчиком:

шаблон.PNG

BalticDigitalDays 2015: Как достичь максимальной текстовой релевантности

Основные факторы текстового ранжирования

Встречаемость слов и их вес

Факторы на базе TF-IDF

Фразовые соответствия

Учёт близости слов

Синонимы

Учёт синонимов

Статические языковые модели

Антиспам vs ранжирование

Основные задачи текстового антиспама:

Рекомендации для SEO-специалистов по анализу текстов

Практические рекомендации по формированию ТЗ для копирайтера

Основные ошибки, допускаемые оптимизаторами при постановке ТЗ:

Рекомендации

BalticDigitalDays 2015. Поведенческие факторы: аналитика, легальный подход к улучшению

BalticDigitalDays 2015: Почему SEO проигрывает контент-маркетингу в эффективности

BalticDigitalDays 2015: Автоматизация построения структуры сайта и мониторинга её эффективности

BalticDigitalDays 2015: Анализ алгоритма «Минусинск», современная работа со ссылочным

Alphabet сделает структуру Google понятной, отчётность – прозрачной, а бизнес – прибыльным

Семь полезных SEO-инструментов для эффективного контент-маркетинга