GoGo.Ru умеет искать синонимы слов

    На поисковом сервисе GoGo.Ru была внедрена новая система анализа поисковых запросов для автоматического отбора потенциальных синонимов (вариантов написания слова). Постоянно пополняемая база слов-синонимов используется для того, чтобы пользователь мог получить наиболее полную и релевантную выдачу, даже набрав в поисковой строке не самый популярный вариант написания слова.

    Внедрение новой системы позволило поставить отбор слов-синонимов на поток и сразу же увеличить объем словаря синонимов GoGo.Ru до 5 тыс. позиций.

    Часто пользователь по очереди набирает в поисковой строке различные слова с одинаковым смысловым значением (“крайслер” и “chrysler”, “аниме” и “анимэ” и т. д.), чтобы отыскать максимально полную информацию по интересующему его предмету. Эта особенность была использована для добавления новых синонимов в словарь GoGo.Ru. Сбор данных для словаря осуществляется при помощи специального программного обеспечения, которое позволяет анализировать запросы одного и того же пользователя, сделанные в ограниченном временном интервале. Затем сформированный список потенциальных синонимов подвергается ручной модерации, отсеиваются цепочки, состоящие из разных по смыслу запросов, и остаются лишь подходящие пары слов для пополнения словаря.

    Используемая в GoGo.Ru технология сбора и использования синонимов в поиске не имеет полных аналогов в Интернете, как по принципу формирования словарной базы, так и по количеству охватываемых категорий слов с неоднозначным написанием.

    Все синонимы в базе GoGo.Ru можно условно разделить на три группы. К первой относятся названия зарубежных торговых марок, имена компаний и другие слова, которые достаточно часто встречаются в русскоязычных текстах в оригинальном написании. Если в запросе фигурирует русская транскрипция бренда, система автоматически будет искать это слово еще и в его иностранном варианте. В качестве примеров из этой группы синонимов можно отметить:

    “вебмани” – “webmoney”

    “леруа мерлен” – “leroy merlin”

    “форекс” – “forex”

    “тошиба” — “toshiba”

    Во вторую группу синонимов попали слова, которые были заимствованы из других языков и могут по-разному писаться на русском. Система, получив запрос с таким словом, осуществляет поиск по всем распространенным вариантам написания. Примеры из второй группы синонимов:

    “каратэ” – “карате”

    “фитнес” – “фитнесс”

    “он лайн” — “онлайн”

    “шопинг” — “шоппинг”

    И, наконец, третья группа синонимов предназначена для автоматического исправления ошибок при вводе запросов. Эта часть словаря позволяет системе распознавать частые опечатки и осуществлять поиск и по ошибочному, и по правильному написанию. Так, например, исправлению подвергаются следующие слова:

    “котедж” на “коттедж”

    “дешовый” на “дешевый”

    “линолиум” на “линолеум”

    “olimpus” на “olympus”

    Вместе с тем возможны ситуации, когда использование синонимов в поиске нежелательно. Тогда пользователь может с помощью оператора “!” задать поиск по точной форме слова без альтернативных написаний и учета морфологии. Для этого нужно просто ввести запрос вида “!слово”.

    «Качество поиска в Интернете определяется не только правильным ранжированием найденных по запросу веб-страниц, — говорит генеральный директор компании Mail.Ru Дмитрий Гришин. – Задача современной поисковой системы заключается в том, чтобы попытаться угадать «что имел в виду пользователь» и подсказать ему правильный ответ. Работа с синонимами – это лишь одна из подобных «подсказок», которые мы планируем реализовать на GoGo.Ru».

    Источник

    Основатель Searchengines.ru. С 2005 по 2014 год работал генеральным директором компании "Яндекс.Украина". Основатель и директор крупнейшего коворкинга Одессы — "Терминал 42". Ведет блог, участвует в подкастах. Больше ничего не умеет.