На поисковом сервисе GoGo.Ru была внедрена новая система анализа поисковых запросов для автоматического отбора потенциальных синонимов (вариантов написания слова). Постоянно пополняемая база слов-синонимов используется для того, чтобы пользователь мог получить наиболее полную и релевантную выдачу, даже набрав в поисковой строке не самый популярный вариант написания слова.
Внедрение новой системы позволило поставить отбор слов-синонимов на поток и сразу же увеличить объем словаря синонимов GoGo.Ru до 5 тыс. позиций.
Часто пользователь по очереди набирает в поисковой строке различные слова с одинаковым смысловым значением (“крайслер” и “chrysler”, “аниме” и “анимэ” и т. д.), чтобы отыскать максимально полную информацию по интересующему его предмету. Эта особенность была использована для добавления новых синонимов в словарь GoGo.Ru. Сбор данных для словаря осуществляется при помощи специального программного обеспечения, которое позволяет анализировать запросы одного и того же пользователя, сделанные в ограниченном временном интервале. Затем сформированный список потенциальных синонимов подвергается ручной модерации, отсеиваются цепочки, состоящие из разных по смыслу запросов, и остаются лишь подходящие пары слов для пополнения словаря.
Используемая в GoGo.Ru технология сбора и использования синонимов в поиске не имеет полных аналогов в Интернете, как по принципу формирования словарной базы, так и по количеству охватываемых категорий слов с неоднозначным написанием.
Все синонимы в базе GoGo.Ru можно условно разделить на три группы. К первой относятся названия зарубежных торговых марок, имена компаний и другие слова, которые достаточно часто встречаются в русскоязычных текстах в оригинальном написании. Если в запросе фигурирует русская транскрипция бренда, система автоматически будет искать это слово еще и в его иностранном варианте. В качестве примеров из этой группы синонимов можно отметить:
“вебмани” – “webmoney”
“леруа мерлен” – “leroy merlin”
“форекс” – “forex”
“тошиба” - “toshiba”
Во вторую группу синонимов попали слова, которые были заимствованы из других языков и могут по-разному писаться на русском. Система, получив запрос с таким словом, осуществляет поиск по всем распространенным вариантам написания. Примеры из второй группы синонимов:
“каратэ” – “карате”
“фитнес” – “фитнесс”
“он лайн” - “онлайн”
“шопинг” - “шоппинг”
И, наконец, третья группа синонимов предназначена для автоматического исправления ошибок при вводе запросов. Эта часть словаря позволяет системе распознавать частые опечатки и осуществлять поиск и по ошибочному, и по правильному написанию. Так, например, исправлению подвергаются следующие слова:
“котедж” на “коттедж”
“дешовый” на “дешевый”
“линолиум” на “линолеум”
“olimpus” на “olympus”
Вместе с тем возможны ситуации, когда использование синонимов в поиске нежелательно. Тогда пользователь может с помощью оператора “!” задать поиск по точной форме слова без альтернативных написаний и учета морфологии. Для этого нужно просто ввести запрос вида “!слово”.
«Качество поиска в Интернете определяется не только правильным ранжированием найденных по запросу веб-страниц, - говорит генеральный директор компании Mail.Ru Дмитрий Гришин. – Задача современной поисковой системы заключается в том, чтобы попытаться угадать «что имел в виду пользователь» и подсказать ему правильный ответ. Работа с синонимами – это лишь одна из подобных «подсказок», которые мы планируем реализовать на GoGo.Ru».