Яндекс.Словари: группировка статей по объекту

Яндекс сообщил о введении алгоритмов кластеризации в Яндекс.Словарях. С их помощью было обработано почти полтора миллиона статей из более чем сотни источников, доступных на сервисе.

Теперь города Пушкин, Лермонтов и Маркс, физические единицы ампер, джоуль и кельвин в результатах поиска отделены от людей, в честь которых они были названы.

Группировка статей по объекту, которому они посвящены, не только помогает лучше понять, кто есть кто, но и открывает интересные перспективы дальнейшего развития. Теперь Белки показываются отдельно от белков, а статьи про каждого из пятидесяти известных Ивановых и более чем сотни Петровых собраны в свою группу.

Также Яндекс представил новую формулу поиска на Яндекс.Словарях. Теперь размер и характеристики кластера (группы статей) влияют на его позицию в поисковой выдаче. Это сделано из тех соображений, что понятия, статьи про которые есть в нескольких словарях, с большей вероятностью важны и интересны для пользователя.

"Чтобы давать пользователю точный и полный ответ на его вопрос, многие сервисы Яндекса учатся видеть за найденными на веб-страницах словами целостные объекты и понятия, отличать их друг от друга и осмысленно с ними работать", сообщается в блоге компании. Так, в свое время Яндекс.Новости научились группировать в сюжеты сообщения, поступающие из разных источников, и составлять в автоматическом режиме пресс-портреты упомянутых в сообщениях людей. Яндекс.Маркет умеет формировать карточки товаров с их подробным структурированным описанием, основываясь на информации от продавцов. Сегодня Яндекс.Словари также сделали первый шаг в этом направлении.

Журналист, новостной редактор, работает на сайте с 2009 года. Специализация: интернет-маркетинг, SEO, поисковые системы, обзоры профильных мероприятий, отраслевые новости рунета. Языки: румынский, испанский. Кредо: Арфы нет, возьмите бубен.