@Mail.ru научила Google русскому языку

    Компания Mail.ru официально объявила о запуске в системе [email protected] возможности искать с учетом морфологии русского языка. Таким образом, [email protected] стала единственной в мире поисковой системой, которая осуществляет поиск информации по всему миру, учитывая при этом особенности запросов, составленных на русском.

    Новый поисковый сервис на портале @Mail.ru был запущен летом 2003-го года. В качестве поискового механизма была выбрана зарекомендовавшая себя во всем мире технология Google WebSearch, которая осуществляет индексацию ресурсов всего мирового интернета. Таким образом, [email protected] сразу приобрел большое конкурентное преимущество перед всеми отечественными поисковыми системами, осуществлящими поиск только по русской части сети, на долю которой приходится всего около 8% страниц.

    Однако, механизм компании Google не был до конца адаптирован к особенностям грамматики русского языка, в частности, при обработке поисковых запросов система не учитывала словоформы, получающиеся в результате склонения и спряжения слов. Таким образом, часть документов с нужными результатами, могла выпасть из поля зрения поискового механизма, если слово в них встречалось в другом падеже, нежели в запросе (например “китайские пытки” и “китайских пыток”).

    Чтобы решить эту проблему, команда разработчиков компании @Mail.ru создала дополнительный программный модуль, усовершенствующий работу механизма Google. Теперь [email protected] умеет учитывать все возможные формы слова в одном запросе. Эта уникальная возможность доступна только пользователям портала @Mail.ru, на сайте поисковой машины Google.com она не реализована.

    Причем, пользователь может по своему желанию включать и отключать эту возможность, в зависимости от конкретной задачи. Особенно помогает поиск “с учетом морфологии” при поиске информации, которая в сети представлена плохо. Например, при запросе “румынские поэты биография” поисковая машина выдает 7 документов в режиме “без учета морфологии” и 126 документов “с учетом морфологии”. Напротив, если результатов поиска слишком много и они не очень релевантны, морфологию можно отключить, сузив таким образом область поиска.

    “Мы выбрали для своего сервиса поисковый механизм компании Google, поскольку на сегодняшний день это самая качественная технология в мире, — говорит генеральный директор компании Mail.ru Дмитрий Гришин. — Однако, из-за особенностей структуры русского языка, в частности, наличия в нем изменяемых окончаний слов, русскоязычные запросы поисковым движком Google не отрабатываются на 100%. Мы доработали и адаптировали блестящий механизм компании Google под потребности российских пользователей и теперь можем с гордостью сказать, что у нас получился уникальный продукт, которому нет аналогов на российском рынке и во всем мире”.

    Возможность включить морфологию при поиске была давно замечена специалистами, поэтому вопросы к представителям компании долго придумывать не пришлось. На них ответила Анна Артамонова, директор холдинга по маркетингу и PR:

    — Морфологический модуль разрабатывали сами специалисты Mail.ru или использовались разработки других специалистов, например, морфологический модуль Коваленко?

    — Морфологический модуль — собственная разработка Mail.Ru. За основу мы взяли данные из открытых источников, после чего они были значительно доработаны нашими специалистами.

    — Каким образом технически реализовано применение морфологии — исходный запрос обрабатывается анализатором и в Google передается какой-то сложный запрос? Или делается несколько запросов, а результаты потом сливаются?

    — Сначала формируется сложный запрос, включающий морфоформы заданных слов. Этот запрос передается в Гугл. Полученные результаты выдаются пользователю.

    — Коль скоро поисковая система Mail.ru становится не простой трансляцией результатов из Google, нет ли у компании планов по дальнейшей модификации поиска, скажем, слияния результатов поиска по Google с результатами поиска по каталогу?

    — Собственно первый этап слияния уже завершен — под каждым найденным сайтом, который есть в Каталоге, выводится соответствующая рубрика. У нас есть планы и по развитию поиска в этом направлении.

    — Применение морфологии тестируется уже месяц, как за это время на возможность отреагировали пользователи?

    — Думаю, лучше всего на этот вопрос ответит статистика. Уже сейчас мы чувствуем существенный прирост числа пользователей на поиске. Динамику можно наблюдать в нашем счетчике.

    Основатель Searchengines.ru. С 2005 по 2014 год работал генеральным директором компании "Яндекс.Украина". Основатель и директор крупнейшего коворкинга Одессы — "Терминал 42". Ведет блог, участвует в подкастах. Больше ничего не умеет.