ECIR 2013: доклад «Технология автоматических подсказок Bing»

Обзор доклада Антонио Гюлли «Технология автоматических подсказок Bing», состоявшегося в рамках конференции ECIR 2013 в Москве.

С 24 по 28 марта 2013 года прошла 35-я ежегодная Европейская конференция по информационному поиску — European Conference on Information Retrieval 2013. Организаторами мероприятия выступили Яндекс и НИУ ВШЭ при поддержке РФФИ, Mail.ru, Google, ABBYY, Yahoo! Labs, Microsoft Research. В программу конференции вошли более ста презентаций, исследований и докладов от приглашенных ученых и практиков со всего мира.

Одним из наиболее интересных выступлений на ECIR 2013 стал доклад Антонио Гюлли (Antonio Gulli), старшего менеджера по разработкам подразделения Bing в Европе.

Как известно, поисковые системы уже давно научились предоставлять пользователям подсказки, касающиеся наиболее распространённых поисковых запросов. Не составляет исключения и Bing, предлагающий своим пользователям функционал автоматических подсказок (autosuggest), которые показываются для наиболее распространенных и высокочастотных поисковых запросов. Технология базируется на анализе более ранних запросов по различным тематикам. Кроме того. Алгоритмы поисковой системы собирают и анализируют большой массив данных, касающихся онлайн- и оффлайн-активности пользователей. Только по результатам масштабного и комплексного анализа персональных данных поисковая система может предлагать пользователю релевантные варианты поисковых запросов.

В ходе выступления Антонио Гюлли продемонстрировал аудитории алгоритмы и методики, которые Bing применяет для того, чтобы функционал автоматических подсказок работал должным образом, способствуя существенному улучшению качества поиска, а также облегчая работу пользователя с поисковой системой в целом.

«Прежде всего мы постоянно исследуем особенности взаимодействия пользователей с поисковой системой, а также изучаем их деятельность в сети интернет в целом», — начал выступление представитель поиска. Поскольку сегодня кросс-платформенность и многофункциональность является важным фактором, детерминирующим поведение пользователей; ряд крупных компаний, таких как: Apple и Google, Amazon – осуществляют активные инвестиции в разработку собственных платформ, устройств, сервисов и программных продуктов. Одним из «пионеров» данного подхода стала и корпорация Microsoft – сегодня операционная система Windows работает для стационарных ПК и ноутбуков, сматрфонов и планшетов. Корпорация активно инвестирует в разработку и поддержку сервисов связи (к прмеру, Skype). Кроме того, Microsoft активно позиционирует себя в индустрии онлайн- и цифровых развлечений. Существенную ставку компания делает и на развитие облачных сервисов.

Весьма значимым для корпорации является поисковое подразделение, занимающееся поддержкой и развитием поисковой системы Bing. Сегодня, для Microsort Bing является одной из важнейших составляющих онлайн-сервисов. В ближайшее время поисковик будет активно встраиваться в различные продукты от Microsoft, кроме того – в планах корпорации – плотная интеграция поисковой системы в OS Windows.

Однако, согласно заявлению представителя компании, основное внимание в разработке Bing всегда будет уделяться именно веб-поиску. Для дальнейшего успешного развития поискового сервиса, разработчикам важно понимать принципы взаимодействия пользователей с различными сервисами и сообществами, а также агрегировать информацию, касающуюся активности людей в глобальной сети в целом.

Прежде, чем перейти к разговору об основных инструментах, приёмах и технологиях, которыми пользуются создатели Bing для реализации функционала автоматических подсказок, г-н Гюлли вспомнил основные вехи развития поиска от Microsoft. «Прежде всего, сегодня важно отметить поступательный рост доли поискового рынка Bing, в США», — продолжил докладчик. «Так на момент запуска – в 2009 году – поисковик занимал чуть более 8% рынка поиска в США. Спустя 3 года, — в мае 2012, его доля приблизилась к 10,9%. Сегодня же доля Bing возросла до 16, 7% на рынке поиска США. В настоящее время Bing и Yahoo сегодня занимают около 30% рынка поиска в Америке».

Далее представитель Bing отметил, что весьма эффективным приёмом с точки зрения популяризации поисковой системы стала разработка панели инструментов Bing (Bing Bar), которая встраивается в браузеры Internet Explorer и Firefox, предоставляя пользователям быстрый доступ к целому ряду сервисов Microsoft. «Особенно часто пользователи обращаются к новостным сервисам», — поделился наблюдением докладчик. Также он сообщил, что со стороны Microsoft в разработку функционала было вложено много сил и ресурсов. Разработка панели инструментов позволила Bing по функционалу приблизиться к лидеру рынка — Google. Если же говорить о поисковых запросах, осуществляющихся с использованием Bing Bar, то здесь пользователей чаще всего интересует сопоставление различных брендов.

Далее Антонио Гюлли перешел к рассказу о работе его проектной группы, в частности, он поведал слушателям детали разработки функционала автоматических подсказок. «Основной принцип функции сводится к тому, чтобы предоставлять пользователям возможность выбирать запросы, в наибольшей степени соответствующие их формулировкам из пула отобранных алгоритмами высокочастотных поисковых запросов. Казалось бы, функционал служит для облегчения взаимодействия пользователя с поисковой системой и снижения числа нерелевантных результатов в выдаче, однако на практике использование данного функционала вызывает существенные сложности, как для пользователей, так и для команды разработчиков», — сообщил докладчик.

По его словам, сегодня развитие функционала является одним из приоритетных направлений работы команды поиска, поскольку 50% поискового трафика приходит на сайты именно благодаря грамотно сгенерированным поисковым автоматическим подсказкам. Докладчик также отметил, что в настоящее время Bing отображает в своей выдаче контент из Twitter’а в режиме реального времени, предлагая в автоматических подсказках запросы, связанные с трендами и популярными аккаунтами сервиса и т.п. Это позволяет делать результаты поиска максимально свежими и актуальными, а также правильно интерпретировать пользовательские запросы в каждый конкретный момент времени, учитывая максимальное количество контекстов обращения к поиску.

Таким образом, на сегодняшний день функционал автоматических подсказок «научился» анализировать миллиарды поисковых запросов в считанные часы. Кроме того, он получил фильтры, позволяющие удалять из выдачи поисковый спам, «взрослый» или запрещенный контент и т.п. «Как известно, ряд стран предъявляет очень жёсткие требования к поисковым системам по выявлению подобного содержания на сайтах», — прокомментировал г-н Гюлли. Также автоматические подсказки сегодня поддерживают функционал исправления ошибок правописания и «умеют» классифицировать контент на множество различных категорий при помощи специальных сигналов.

И все же работа над функцией автозаполнения влечет за собой ряд определенных проблем, в частности, трудности возникают при ранжировании результатов, появляющихся в выдаче при использовании пользователем автоматических подсказок. Чтобы сделать эти результаты еще более точными, команда Bing:

1. Начала фиксировать определённые сигналы, передающие информацию о характере пользовательской активности в глобальной сети;

2. Разработала специальные системы оценки поведения пользователя, чтобы понимать какую информацию он ищет в интернете;

3. Начала фиксировать ряд персонализированных данных: местоположение пользователя; его более ранние поисковые запросы; активность пользователя в соцмедиа, а также оффлайн-активность человека.

Примечательно, что для разных рынков и регионов используются различные поисковые подсказки. Кроме того, различны и технологии, использующиеся для разных сервисов Microsoft. К примеру, порталы Bing и MSN, используют разный функционал автозаполнения. Отдельный вид автозаполнения поддерживает и браузер InternetExplorer. Разработано отдельное расширение для Chrome, создано поисковое приложение Bing для Windows 8.

С точки зрения дальнейшего развития поискового функционала для Bing важна интеграция собственной платформы с платформой соцсети Facebook. Как известно, сегодня Bing обеспечивает внешний поиск по контенту соцсети – основываясь на Facebook-активности пользователей. Данное партнерство влечет за собой очевидные выгоды как для крупнейшей в мире соцсети, так и для поиска Bing.

Технологии распознавания запросов, отображающихся в поисковых подсказках, основываются на следующих принципах:

1. Прежде всего, методом кластеризации определяются основные намерения пользователя;

2. Затем поисковые подсказки ранжируются в соответствии с принципами машинного обучения.

3. В считанные миллисекунды алгоритмы оценивают контент по следующим параметрам:

  • Свежесть и актуальность;
  • Общий объём поисковых запросов по данной тематике;
  • Количество кликов пользователей по предложенным системой поисковым подсказкам.

Кроме того, для оценки релевантности поисковой подсказки применяется еще несколько сотен различных онлайн- и оффлайн-сигналов, традиционно использующихся поисковой системой в ранжировании. «Важно отметить, что эффективное добавление одного сигнала может увеличить процент использования поисковых подсказок на 60%», — заметил докладчик.

Он также сообщил, что сегодня алгоритмы Bing используют следующие сигналы: информация из профиля пользователя; сессии и cookies; данные о местоположении пользователя и его активности в сети. Безусловно, чтобы предотвратить множественные автоматические регистрации и отправления сообщений программами-роботами, применяется CAPTCHA.

Таким образом, мощная платформа, разработанная специально для осуществления функции автоматических подсказок и содержащая ряд слоёв, обновляется каждые 5 или 10 минут.

В общем виде работа платформы, обеспечивающей эффективный функционал автоматических подсказок в поиске выглядит следующим образом: представим, что пользователь начал набирать в поисковой строке название популярного технологического бренда, к примеру, [nikon]. Чтобы определить истинную цель его поискового запроса в алгоритмах Bing используются следующие принципы и подходы:

1. Технология нейролингвистического программирования (НЛП) – применяются для того, чтобы определить сферу применения конкретного продукта пользователем;

2. Далее из миллиардов документов и страниц, существующих в глобальной сети, выбирается несколько сотен результатов, наиболее релевантных запросу пользователя.

3. Весьма эффективно применять множественные математические модели для перепроверки результатов, транслирующихся сразу же под поисковой строкой.

4. Не менее важно сопоставлять содержание поискового запроса с содержанием сниппета, использующегося для описания страницы.

5. На заключительном этапе алгоритм выполняет ранжирование запросов по основным тематикам: «погода», «акции», «новости», «картинки», «места» и т.п.

Одна из платформ Bing называется «Cosmos» («Космос»), в ней использован язык SСОPE. Специфика платформы заключается в том, что она представляет собой обширную инфраструктуру, которая обслуживается множеством дата-центров по всему миру и позволяет собирать огромное количество данных о пользователях, а также обрабатывать их при помощи технологий машинного обучения.

Платформа содержит специальный «компилятор», позволяющий собрать и обработать огромное количество данных. Алгоритм работы платформы выглядит следующим образом:

Как видно на изображении, для сбора и анализа данных, платформа использует множественные внешние модели сетей. Язык SCOPE использует, так называемые, поисковые логи для предсказания переходов пользователей в поисковых сессиях. Данный подход позволяет существенно повысить точность автоматических подсказок.

Программный код, созданный на языке SCOPE, может выглядеть, к примеру, так:

Кроме того, одной из наиболее распространенных моделей работы с Big Data является применение MapReduce. Данная модель распределённых вычислений, используется в платформе «Cosmos». Модель традиционно применяется для параллельных вычислений над очень большими, несколько петабайт, наборами данных в компьютерных кластерах. Преимущество MapReduce заключается в том, что она позволяет распределенно производить операции предварительной обработки и свертки огромных массивов данных. Операции предварительной обработки осуществляются независимо друг от друга и могут производиться параллельно. Аналогичным образом, сверку может осуществлять одновременно множество рабочих узлов. При этом важно, чтобы все результаты предварительной обработки с одним конкретным значением ключа обрабатывались одним рабочим узлом в один момент времени. Таким образом, модель MapReduce успешно применяется для обработки больших массивов данных, которые могут обрабатываться большим количеством серверов. Кроме того, модель хорошо зарекомендовала себя при работе с данными из социальных графов и реализуется в Bing следующим образом:

Применение MapReduce совместно с SCOPE позволяет создавать эффективные фильтры для обработки огромных массивов данных, включая: анализ поведения пользователей и их поисковых запросов; обнаружение веб-спама и удаление его из выдачи и т.п.

Использование данной технологии нашло своё отражение в сервисе Bing Snapshot, который функционирует больше года и предоставляет пользователям информацию о коммерческих компаниях (магазинах, отелях, кинотеатрах, ресторанах и т.п.), позднее сюда добавился поиск географических объектов, людей и животных. Результаты поиска сопровождаются большим количеством фото- и видеоизображений

Как известно, в Bing весьма популярен поиск людей и географических объектов — вот почему при поиске конкретного человека система заимствует информацию из Facebook, LinkedIn, Twitter, Wikipedia и Klout. Такой подход позволяет предоставлять пользователю наиболее свежую информацию о запрашиваемой персоналии. База знаний сервиса также используется при генерации автоматических поисковых подсказок. Инновацией стало и то, что технология Satori позволяет пользователям задавать вопросы, применяя «естественный язык». Это избавляет их от необходимости по нескольку раз переформулировать поисковый запрос.

«Благодаря использованию перечисленных выше технологий и разработок, поисковая система Bing теперь знает о своих пользователях еще больше. В тоже время опыт создания



позволил корпорации Microsoft выявить множественные механизмы построения прямых связей между пользователями и брендами. Опыт оказался весьма полезен для анализа коммерческих запросов», — завершил своё выступление Антонио Гюлли.

Также докладчик сообщил, что в настоящее время Bing активно использует платформу «Cosmos» в сервисе Bing Snapshot, а также в социальной колонке Social Sidebar, которая выводится справа от результатов поиска и демонстрирует связанные с запросом пользователя материалы соцмедиа.

Трансляция доклада Антонио Гюлли в записи доступна здесь.

Журналист, новостной редактор, работает на сайте с 2009 года. Специализация: интернет-маркетинг, SEO, поисковые системы, обзоры профильных мероприятий, отраслевые новости рунета. Языки: румынский, испанский. Кредо: Арфы нет, возьмите бубен.