ECIR 2013: доклад Марка Найорка «Социальный поиск»

С 24 по 28 марта 2013 года прошла 35-я ежегодная Европейская конференция по информационному поиску — European Conference on Information Retrieval 2013. Организаторами мероприятия выступили Яндекс и НИУ ВШЭ при поддержке РФФИ, Mail.ru, Google, ABBYY, Yahoo! Labs, Microsoft Research. В программу конференции вошли более ста презентаций, исследований и докладов от приглашенных ученых и практиков со всего мира.

Тему социального поиска в рамках конференции раскрыл Марк Найорк (Marc Najork), руководитель отдела разработок в Microsoft Research. В своем докладе «Социальный поиск» (Social Search) Марк поделился технологическими тонкостями выявления социальных сигналов, имеющих особое значение для результатов поиска Bing.

«Как известно, социальные сигналы могут быть использованы, чтобы уточнять результаты поиска, делая их максимально релевантными запросу конкретного пользователя. Данная информация может быть с успехом заимствована из социальных сетей и сервисов. В ходе выступления я попытаюсь объяснить, как именно социальный контент позволяет улучшить поисковую выдачу Bing. Также отдельно я сосредоточусь на вопросе, как сигналы из разнообразных социальных сетей и сервисов могут быть использованы для повышения юзабилити поиска с учетом разнообразия пользовательских задач сценариев. Также я расскажу о некоторых ограничениях, с которыми неизбежно сталкиваются разработчики поисковых систем», — начал своё выступление докладчик.

Рассказывая о социальных аспектах поиска Bing, г-н Найорк перечислил названия информационных партнёров Microsoft, предоставляющих социальный контент для поисковой системы. На сегодняшний день это: Facebook, Twitter, Quora, Foursquare и другие. Кроме того, в марте 2013 года к списку партнёров Bing присоединилась и социальная сеть для профессионалов Linkedin.

Что же на самом деле означает понятие социального поиска для Bing? Прежде всего, поиск использует открытую информацию из соцсетей: к примеру, публичные посты в блогах, ответы на форуме Quora, твиты и «Актуальные темы» в Twittter’e и т.п.

Персональные сигналы используются для того, чтобы улучшить результаты выдачи для конкретного пользователя. Это могут быть сигналы о том, какие веб-страницы «лайкнули» друзья пользователя; полученные из соцмедиа сведения об интересах и предпочтениях человека, осуществляющего поиск и т.п.

В качестве иллюстрации докладчик привёл скриншот страницы неперсонализированной выдачи Bing:

А также скриншот персонализированной страницы выдачи Bing для аналогичного поискового запроса:

«Как известно, поиск Bing может стать персонализированным – этого можно добиться связав свой аккаунт в Bing с аккаунтом в соцсети Facebook. Это позволит «адаптировать» результаты поиска под интересы конкретного человека, имеющегося сложившийся круг общения, определённый род занятий, посещавшего ранее конкретные места. В настоящее время персонализация доступна даже для поиска по картинкам», — продолжил представитель Microsoft.

Далее докладчик перешёл к рассмотрению каналов получения персонализированной информации поиском Bing. Так, например, если человек намеревается посетить определенную страну или город, алгоритмы поиска обращаются к контенту сайта Gogogbot, предназначенного для планирования путешествий. Далее алгоритм анализирует связи пользователя и определяет, кто из его друзей посещал эту страну (город) ранее, в каких местах бывал, какими фотографиями поделился, и какие отзывы о своём путешествии оставил на сервисе. Также Bing при соответствующем поисковом запросе предоставит пользователю персональную информацию и покажет в выдаче социальные профили друзей, родившихся или проживших некоторое время в данной стране (городе).

В свою очередь, геолокационный сервис Foursquare позволяет поиску от Microsoft ранжировать места и заведения, о которых пользователь ищет информацию по частоте посещений как им самим, так и его друзьями. Таким образом, передавая данную информацию поисковой системе Bing посредством Foursquare, пользователь может получить максимально персонализированные результаты при поиске мест.

Социальный сервис вопросов и ответов Quora, позволяет поисковой системе фиксировать сферы интересов пользователей. Не менее важны для обработки алгоритмами поиска посты и комментарии пользователей в различных блогах, их твиты и сообщения тех, чьими фолловерами являются пользователи, выполняющие поиск в Bing.

Отдельно стоит отметить важность для персонализации использования кнопки «Лайк». Данный фактор также является социальным сигналом для Bing. Чем больше друзей пользователя «лайкнули» контент, касающийся реалий содержащихся в его поисковом запросе – тем более высокую позицию в выдаче получат страницы, содержащие этот контент. К примеру, если по ссылке на определённый ресурс кликнули 3 моих друга, а затем я упомянул о его контенте в поисковом запросе — данный ресурс получит более высокую позицию в выдаче, чем прочие.

Аналогичным образом алгоритмы поиска анализируют и социальный контент из Twitter’а: чем больше друзей пользователя сошлются в твитах на тот или иной ресурс — тем более высокие результаты он получит в выдаче Bing при соответствующем запросе.

Далее докладчик перешёл к подробному рассказу о поиске конкретных персоналий и о том, какие социальные сигналы использует система в случаях, если поисковый запрос касается человека. «Набрав в поисковой строке имя и фамилию человека, вы сможете обнаружить в выдаче множество социальной информации по нему, включая профили друзей в социальных сетях. Причём, Bing предоставит вам эти результаты в независимости от того, ищите ли вы информацию о знаменитости или введёте в запрос имя вашего школьного друга, не снискавшего особой популярности в течение жизни», — заметил Марк Найорк. В доказательство своих слов он привёл несколько примеров поска персоналий.

Первый вариант касался категории поиска знаменитостей, так называемых, селебритиз. Чтобы детально показать работу социального поиска, Марк набрал в поисковой строке Bing имя широко известной по всему миру американской поп-певицы Бритни Спирс [Britney Spears], а затем продемонстрировал аудитории, из каких социальных сервисов алгоритмы поиска заимствовали информацию относительно данного поискового запроса.

Как видно из скриншота, более высокие позиции в выдаче получили ссылки на сайты, содержащие статьи и информацию справочно-биографического характера, посвященную звезде. Это, так называемый, несоциальный поиск. Как правило, он представлен ресурсами Wikipedia и Freebase. Кроме того, в выдаче содержалось большое количество фото- и видеоинформации релевантной запросу.

В свою очередь, «социальные результаты» располагаются справа от основной выдачи – в этой части страницы SERP можно найти контент из Twitter’а, Facebook’а, Klout. Также в категории социального поиска можно увидеть посты певицы в соцсетях, вопросы, связанные с Бритни Спирс, задаваемые пользователями сервиса Quora. Можно также увидеть списки друзей звезды в соцсервисах; обсуждения с упоминанием ее имени; «лайки» пользователей по контенту, связанному с персоналией, указанной в поисковом запросе и т.д.

Не менее любопытным было и то, что при вводе в поисковую строку имя нынешнего президента США Барака Обамы [Barack Obama] в результатах социального поиска Bing показались посты из Google+. Данный момент несколько удивил даже самого представителя Bing: «Несмотря на то, что у нас нет официального партнёрства с Google, результаты из Google+ относительно данной персоналии транслируются в социальной выдаче Bing. Это обусловлено тем, что Барак Обама является «сверхпубличной» персоной, и по данному поисковому запросу содержится огромное количество сигналов в соцсетях», — пояснил Марк.

Еще один вид сценария поиска – планирование путешествия. Как уже говорилось выше, для поиска персонализированной информации о географическом объекте используется личная информация, указанная друзьями пользователя в профилях соцсетей. Аналогичные пользовательские данные собирают и алгоритмы локального поиска Bing. Данный подход позволяет предоставить пользователю максимально полную и релевантную контексту его запроса информацию о конкретном месте.

Далее докладчик рассказал о технических аспектах поиска. «Как правило, при разработке алгоритмов социального поиска, команда сталкивается с весьма серьёзной проблемой. Она заключается в умении грамотно определить степень близости («родства») социальных связей между пользователями, ведь зачастую мы добавляем в свои друзья людей, которых едва ли знаем в обычной жизни», — наметил основную проблему Марк Найорк.

Чтобы выявить параметры социальных связей между пользователями и определить степень «родства» этих связей, а значит и силу влияния одних пользователей на других, мы используем систему узлов и звеньев. Данный подход позволяет последовательно исключать наименее близкие связи, а также выявлять общие интересы взаимодействующих между собой владельцев социальных профилей.

Следующий граф иллюстрирует систему определения социальных сигналов, разработанную для поиска Bing:

Таким образом, выявление степени «близости» социальных связей между пользователями имеет две фазы: оффлайн и онлайн. В фазе оффлайн: происходит сопоставление ID пользователя с типами контента, который они оставляют в социальных сетях. Затем все выявленные параметры ранжируются по определённым признакам. Исходя из этих признаков, составляется специальная матрица в которой профили пользователя объединяются на основе связей, общих интересов.

После этого следует фаза онлайн, когда все полученные результаты сопоставляются с социальным графом пользователя, выявляется количество контактов «друзей по соцсетям» между собой. Таким образом, определяется степень значимости каждого контакта для отдельно взятого пользователя. Неактуальные связи последовательно исключаются.

Далее докладчик рассказал о том, как «лайки» друзей влияют на позицию ресурса в выдаче: «Как известно, сегодня возможности поисковых систем позволяют выводить сотни и тысячи результатов по каждому поисковому запросу. При этом основная задача поиска грамотно ранжировать результаты выдачи, используя социальные сигналы. Частично решить данную проблему позволяет использование в соцсетях плагинов типа «Лайк». При таком подходе поисковая система начинает рассматривать как более «трастовый» для каждого конкретного пользователя именно тот ресурс, который ранее «лайкнули» его друзья, и ранжирует результаты соответствующим образом. Однако данный подход имеет и существенные недостатки: так, до сих пор не решена проблема изменения списка друзей. Также, если начать рассматривать пул друзей каждого конкретного пользователя – можно обнаружить большое количество разнородных «Лайков». В итоге алгоритмам поиска приходится дополнительно обрабатывать и систематизировать все «Лайки», оставленные друзьями пользователя, прежде, чем принимать их за социальные сигналы.

В качестве решения данной проблемы инженеры Microsoft Research: разделили все связи на часто и редко использующиеся. Также пришлось «вычленить» пользователей, имеющих в соцсетях множество друзей. Затем на основании часто использующихся связей был список социальных контактов, которые влияют на поведение пользователя, а значит, должны быть учтены алгоритмами поиска при формировании персонализированной выдачи.

По заявлению Марка Найорка, анализ «Лайков» позволяет выявить огромное количество информации, касающейся интересов пользователя, его взглядов, мировоззрения, вплоть до религии и образа жизни. Это значит, что подобная социальная информация предоставляет поисковой системе множество дополнительных социальных сигналов для обеспечения максимально релевантной выдачи.

Так, результаты социологических исследований показывают, что сегодня Facebook использует 66% пользователей глобальной сети; к сообществу профессионалов Linkedin присоединилось 20% интернет-пользователей; аудитория Twitter’а составляет 16% от всех пользователей мирового веба.

«Также данные опросов показывают, что сегодня соцсеть Facebook наиболее популярна среди молодёжи – обычно это студенты колледжей и университетов. В то же время соцсеть для профессионалов Linkedin чаще используют работающие люди, а также те кто ищет работу. Обычно это пользователи в возрасте от 30 лет, имеющие степени бакалавров, магистров и выше. Что же касается сервиса микроблогов Twitter, то он популярен среди молодёжи. Также помимо «умных» и информационно насыщенных сообщений, в Twitter’е можно обнаружить множество твитов принципиально иного характера: к примеру, сообщения о том, как тот или иной пользователь намеревается провести или уже проводит свой вечер. Это также крайне важные сигналы, которые алгоритмы поисковой системы учитывают при формировании персонализированной выдачи», — завершил выступление докладчик.

Трансляция доклада Марка Найорка в записи доступна здесь.

Обзор подготовила Анастасия Матвеева

Журналист, новостной редактор, работает на сайте с 2009 года. Специализация: интернет-маркетинг, SEO, поисковые системы, обзоры профильных мероприятий, отраслевые новости рунета. Языки: румынский, испанский. Кредо: Арфы нет, возьмите бубен.