Neural Matching: что представляет собой новый алгоритм Google

Автор: Роджер Монти (Roger Montti) – SEO-практик, модератор форума WebmasterWorld, постоянный автор Search Engine Journal.

Накануне своего 20-летия Google заявил, что начал использовать новый алгоритм нейронного сопоставления (Neural Matching, NM), чтобы лучше понимать концепты. По словам сотрудника поиска Дэнни Салливана (Danny Sullivan), эта разработка используется для 30% поисковых запросов.

Недавно Google также опубликовал документ, в котором описал успешное сопоставление поисковых запросов и веб-страниц без учёта других факторов. Хотя этот алгоритм, возможно, и не используется, или же используется как часть группы алгоритмов, его можно рассматривать как пример того, как может работать Neural Matching.

Стоит отметить, что Google далеко не всегда использует те алгоритмы, которые описывает в своих патентах и научных статьях. Однако какая-то часть опубликованных алгоритмов всё же задействована в работе поисковой системы.

Также стоит указать, что компания обычно не отвечает на вопросы касательно использования конкретного алгоритма.

В прошлом Google обсуждал некоторые алгоритмы в общих чертах – такие как Panda и Penguin. Похоже, что в случае с Neural Matching сложилась похожая ситуация. В частности, Дэнни Салливан поделился в Twitter некоторыми деталями того, как работает этот алгоритм.

«Нейронное сопоставление – это AI-метод, предназначенный для лучшего связывания слов с концептами».

Позже он добавил, что пользователи нередко могут указывать в запросе одно, а подразумевать другое, и приложил скриншот, где показано, как одно и то же слово может иметь несколько разных значений.

This is a look back at a big change in search but which continues to be important: understanding synonyms. How people search is often different from information that people write solutions about. pic.twitter.com/sBcR4tR4eT

— Danny Sullivan (@dannysullivan) 24 сентября 2018 г.

Искусственный интеллект, глубокое обучение и ранжирование

Недавно в блоге Google AI была опубликована следующая статья: «Deep Relevance Ranking using Enhanced Document-Query Interactions».

Хотя это исследование относительно новое, оно основано на уже известном ИИ-методе выполнения задач под названием Document Relevance Ranking. Этот метод также известен как Ad-hoc Retrieval (информационный поиск по произвольному запросу).

Мы не можем утверждать, что представленный в статье алгоритм является частью того, что Google называет Neural Matching. При этом интересно подробнее изучить то, что имеет похожий принцип работы.

Вот как в статье описывается Ad-hoc Retrieval:

«Метод Document Relevance Ranking, также известный как Ad-hoc Retrieval… заключается в ранжировании документов из широкой выборки с использованием только запроса и текста каждого документа».

То есть, в этом типе ранжирования используется только поисковый запрос и веб-страницы, без учёта других факторов. Далее в документе говорится, что:

«Это контрастирует со стандартными системами поиска информации (information retrieval, IR), которые полагаются на текстовые сигналы в сочетании с сетевой структурой (Page et al., 1999; Kleinberg, 1999) и/или обратную связь от пользователей (Joachims, 2002)».

В качестве авторов научных работ в этом фрагменте упоминаются Ларри Пейдж (Larry Page) в связи с PageRank и Джон Клейнберг (Jon Kleinbergs) в связи с его исследованием по использованию ссылок для ранжирования веб-страниц.

В целом из документа понятно, что Document Relevance Ranking – это относительно новый метод ранжирования веб-страниц, который не полагается на ссылочные сигналы.

Новый подход к ранжированию

Новый алгоритм, опубликованный в ИИ-блоге Google, не основан на традиционных факторах ранжирования. Однако эти факторы используются в первую очередь. Затем в работу вступает та часть алгоритма, что связана с Ad-hoc retrieval. На этом этапе выполняется повторное ранжирование уже проранжированных страниц.

Это значит, что традиционные сигналы ранжирования по-прежнему используются, однако они не определяют то, какие страницы будут находиться в топ-10 поисковой выдачи.

Таким образом, можно сказать, что традиционные сигналы ранжирования выполняют функцию предварительного отбора. Они позволяют Google отсеять спам и выбрать самые релевантные документы.

Новый же алгоритм повторно ранжирует эти страницы согласно совершенно другому набору критериев для определения того, что Дэнни Салливан назвал «суперсинонимами».

Использование сигналов ранжирования на первом этапе – это то, что отличает данный алгоритм от опубликованного в 2016 году алгоритма под названием Deep Relevance Matching Model (DRMM).

Вот что говорится в новом исследовании при сравнении DRMM с новым алгоритмом:

«В парадигме, основанной на взаимодействии, индуцируются явные кодировки между парами запросов и документов. Это делает возможным прямое моделирование терминов с точным или близким соответствием (т.е. синонимов), что имеет решающее значение для релевантного ранжирования.

Исследование (Guo et al, 2016) показало, что метод DRMM, основанный на взаимодействии, превосходит предыдущие методы, основанные на формальном представлении. С другой стороны, основанные на взаимодействии модели являются менее эффективными, поскольку они не могут индексировать формальное представление документа независимо от запроса. Однако это менее важно, когда методы Relevance Ranking повторно ранжируют документы, возвращаемые обычным IR-движком, что является сценарием, который мы рассматриваем здесь».

Что же делает этот алгоритм?

Его цель – сопоставлять поисковый запрос с веб-страницей, используя только запрос и только страницу. Веб-страницы, ранжируемые таким алгоритмом, не будут продвигаться в топ поисковой выдачи благодаря ссылкам или ключевым словам, поскольку этот алгоритм по-другому определяет соответствие.

«Мы изучили несколько новых моделей для Document Relevance Ranking, созданных на основе Deep Relevance Matching Model (DRMM)… В отличие от метода DRMM, в котором используются нечувствительные к контексту кодировки терминов и взаимодействия между запросами и документами, мы внедряем расширенные контекстно-зависимые кодировки во всех наших моделях».

Контент становится более важным

Значит ли это, что вебмастерам нужно использовать больше синонимов? Вряд ли. Цель Google – понимать контекст и значение страницы. Именно поэтому поисковая система работает над улучшением своего понимания синонимов. Таким образом, чёткая и последовательная передача информации является более важной, чем наполнение страницы ключевыми словами и синонимами.

Google официально заявил, что способен понимать концепты, а это выходит за пределы просто ключевых слов и синонимов. Это более естественное понимание того, как веб-страница решает проблему, заключённую в поисковом запросе.

Согласно недавнему заявлению Google:

«Мы достигли той точки, когда нейронные сети могут помочь нам сделать рывок от понимания слов к пониманию концептов. Neural Embeddings – подход, разработанный в области нейросетей, позволяет нам трансформировать слова в более широкие сущности базовых понятий, а затем сопоставлять концепты в запросе с концептами в документе. Мы называем эту технику нейронным сопоставлением».

Что же такое Neural Matching?

Есть вероятность, что Neural Matching включает элементы описанного выше алгоритма в сочетании с элементами других алгоритмов. Использует ли Google именно этот алгоритм не так важно. Главное, что ранжирование документов с использованием только поискового запроса и контента страницы возможно.

Мы надеемся, что понимание этого факта поможет владельцам сайтов избежать использования таких неэффективных стратегий, как избыточное добавление синонимов.

Новый тип ИИ-ранжирования показывает, как могут генерироваться результаты поиска, напрямую не формируемые традиционными факторами ранжирования. И это требует большего внимания к таким вещам, как поисковое намерение и понимание того, как контент страницы помогает пользователю.

Источник: Search Engine Journal
preview 23 тезиса из доклада Гэри Илша на Pubcon 2018

23 тезиса из доклада Гэри Илша на Pubcon 2018

В своём выступлении сотрудник Google рассказал о последних нововведениях в работе поисковой системы и о том, что важно для эффективной SEO-оптимизации сайта
preview Линкбилдинг в белом SEO: как не ошибиться?

Линкбилдинг в белом SEO: как не ошибиться?

Наличие халтуры в рабочей сфере почти любой отрасли приводит к возникновению предрассудков
preview Исследование ROOKEE: Эффективность нейросетей для автоматизации ссылочного продвижения

Исследование ROOKEE: Эффективность нейросетей для автоматизации ссылочного продвижения

Как сказывается внедрение нейронных сетей в алгоритмы ссылочной закупки на позициях сайтов в выдаче Яндекса и Google
preview SEO сегодня: Инструкция для успешного старта

SEO сегодня: Инструкция для успешного старта

На что следует ориентироваться в SEO сегодня? Какие факторы учитывать? Чем усилить полезный эффект? Как выбрать нужного SEO-подрядчика...
preview Кейс: Создание и продвижение сайта по комплексному остеклению

Кейс: Создание и продвижение сайта по комплексному остеклению

Как мы разрабатывали сайт по комплексному остеклению для компании ОСТЕКЛЕНИЕ 812, и с какими сложностями встретились в процессе продвижения молодого сайта в ТОПы Яндекса и...
preview Современный взгляд на факторы ранжирования Google

Современный взгляд на факторы ранжирования Google

Своими мнениями и наблюдениями делятся западные эксперты – Роджер Монти, Билл Славски и Мартин МакДональд