Как поисковая машина может ставить страницы с релевантными описаниями выше в результатах поисков

Автор: Bill Slawski
Перевод: Денис Кучумов

Релевантность – одно из слов, которые используются, когда раскрывается принцип работы поисковых машин. Поисковые машины пытаются показать пользователям веб-страницы и результаты поиска, релевантные словам, которые пользователи вводили в поисковую форму. И все же, есть ряд способов дать определение понятию релевантность.

Например, преподаватель Рутгерского университета Тефко Сарачевич, изучающий понятие релевантности в течение нескольких лет, исследует различные мысли и литературу на эту тему с целью описать ряд способов определения понятия релевантность в своей статье «Релевантность: обзор литературы и основа для размышления о понятии в информатике. Часть II: природа и проявление релевантности» от 2006 года.

Релевантность можно считать способом нахождения документов, содержащих слова, которые кто-то мог искать, или документов, имеющих отношение к концептам, содержащимся в запросах. Релевантность может быть определена посредством рассмотрения отношений между пользователями и терминами поиска, которые они используют, принимая во внимания их историю просмотров и поиска, и, возможно, поиск, производимый другими пользователями, которые могут иметь к первым социальное отношение или разделяют с ними определенные интересы.

Релевантность также можно определить посредством проблемы или задания, с которыми сталкивается пользователь, выполняя поиск.

Поисковые машины также исследуют некоторые из этих концептов релевантности, и в недавнем патенте, выданном компании Google, дается новое определение способу осуществления поиска, чтобы помочь пользователям, испытывающим информационные потребности или имеющим определенные задания, которые должны быть выполнены, найти релевантные страницы.

В процесс, описанный в патенте, в дополнение к использованию термина запроса в поиске, мы также включим понятие «label» (ярлык), совпадающее с аннотациями, сделанными на страницах, которые могут быть выданы в качестве результатов поиска.

Например, кто-то ищет информацию о цифровых фотоаппаратах и хочет найти профессиональные обзоры. В поисковую форму можно ввести такой запрос:

[цифровые фотоаппараты label:профессиональные обзоры]

Результаты поиска покажут страницы, релевантные термину «цифровые фотоаппараты», а также оценят страницы с ярлыком «профессиональные обзоры» как более релевантные поиску по сравнению со страницами, не имеющими ярлыков.

Изображение внизу, взятое из патента, показывает в результатах поиска страницы, имеющие ярлык «симптомы», при поиске информации о раке с использованием запроса «labels: симптомы» (на английском языке).

Аннотации в качестве ярлыков

Персонализированный поиск часто учитывает прошлую историю поисков и просмотров, чтобы определить страницы, которые могут быть «релевантными» намерению пользователя, пытаясь понять интересы пользователя. Но эта информация может быть не очень полезной, когда кто-то пытается найти информацию, релевантную заданию, не имеющему никакого отношения к информации, которая искалась в прошлом.

Поисковая машина также иногда покажет пользователю предположения по запросам, основанные на страницах, бывшими последними посещенными страницами, когда другие пользователи искали то же самое или похожее. Однако возможно, что эти пользователи имели при поиске совершенно другие намерения.

Если бы пользователи должны были добавлять больше информации о том, что они ищут, например, вышеупомянутые ярлыки, это помогло бы поисковым машинам находить более релевантные результаты, основанные на ситуациях, стоящих за поиском.

Но создает ли поисковая машина эти ярлыки и связывает ли их с веб-страницами?

Веб-сайт, посвященный проблемам со здоровьем, может иметь тэги или категории для статей, опубликованных на сайтах. Например, статьи об аллергиях могут иметь тэги «симптомы», «лечение» или «препараты». Веб-сайт о цифровых фотоаппаратах также может снабжать страницы тэгами «экспертный обзор» или «новый товар».

Тэги на этих сайтах могут быть полезными, однако вы не видите аннотаций, когда производите поиск с помощью обычной поисковой машины, как Google, Yahoo или Bing. Аннотации также могут определяться комментариями на страницах.

Если бы поисковые машины должны были захватывать на подобных сайтах такую информацию, как тэги, это могло бы стать началом, однако многие страницы не имеют подробных аннотаций, и могут не иметь ярлыков даже несмотря на то, что на них может быть полезная информация.

Поисковая машина может попытаться найти другие способы понять, как применить аннотации к определенным страницам, например, рассматривая информацию о паттернах в адресах страниц на сайтах. Так, на веб-сайте о цифровых фотоаппаратах может быть раздел «обзоры» с адресом «www.digitalcameraexample.com/review/». Можно сделать предположение, что документы, находящиеся в разделе, содержат обзоры цифровых фотоаппаратов и ярлык «профессиональные обзоры» может быть применим к страницам в рамках этого раздела.

Другой раздел на этом сайте может называться «новости» и иметь адрес «www.digitalcameraexample.com/news/». Страницы в этом разделе не будут иметь ярлыка «профессиональные обзоры», но вместо этого могут иметь ярлык «новости индустрии».

Патент Google:
Фильтрование результатов поиска с использованием аннотаций
Изобретатели: Patrick F. Riley, Ramanathan Guha
Принадлежит Google
US Patent 7,668,812
Утверждено 23 февраля 2010 года
Подано на рассмотрение 9 мая 2006 года

Аннотация:
Поисковая машина принимает запросы, включающие термины запросов и ярлыки, применимые к определенным документам. Фильтр домена создан так, что он фильтрует результаты поиска, оставляя определенные домены, которые определяются ярлыками, включенными в запрос. Фильтрованные результаты поиска обрабатываются таким образом, чтобы обеспечивать принадлежность определенных результатов поиска доменам, включенным в фильтр. Результаты обрабатываются дальше так, чтобы они включали ярлыки запросов с определенными результатами.

Заключение

Идея возможности добавить «ярлыки» при запросе представляет интерес, однако интересно также, сколько пользователей их будут указывать при поиске.

Google позволяет воспользоваться при поиске другими специальными операторами. Например, если вы хотите найти страницы на определенную тему, расположенные лишь на образовательных сайтах, вы можете произвести следующий поиск:

[красные карлики site:.edu]

Очень ценна возможность произвести поиск в таком виде с указанием ярлыка

[ветрянка label:симптомы]

Мне бы хотелось, чтобы опция «label» (ярлык) была добавлена поисковыми машинами.

Я уверен в том, что возможность использовать такие ярлыки облегчит поиск страниц, релевантных в конкретных ситуациях.

Существует возможность того, что люди будут намеренно применять тэги к некоторым неподходящим страницам, или размещать страницы в разделах, которые не совпадают со словами, содержащимися в адресах страницы, а патент не раскрывает деталей того, как будут определяться нерелевантные «аннотации», однако я полагаю, что будет возможно каким-то образом отсеивать такие результаты.

Обратите внимание, что Google уже предоставляет способ включать ярлыки в систему пользовательского поиска.

Основатель Searchengines.ru. С 2005 по 2014 год работал генеральным директором компании "Яндекс.Украина". Основатель и директор крупнейшего коворкинга Одессы — "Терминал 42". Ведет блог, участвует в подкастах. Больше ничего не умеет.