Компания Mail.ru официально объявила о запуске в системе Поиск@Mail.ru возможности искать с учетом морфологии русского языка. Таким образом, Поиск@Mail.ru стала единственной в мире поисковой системой, которая осуществляет поиск информации по всему миру, учитывая при этом особенности запросов, составленных на русском.
Новый поисковый сервис на портале @Mail.ru был запущен летом 2003-го года. В качестве поискового механизма была выбрана зарекомендовавшая себя во всем мире технология Google WebSearch, которая осуществляет индексацию ресурсов всего мирового интернета. Таким образом, Поиск@Mail.ru сразу приобрел большое конкурентное преимущество перед всеми отечественными поисковыми системами, осуществлящими поиск только по русской части сети, на долю которой приходится всего около 8% страниц.
Однако, механизм компании Google не был до конца адаптирован к особенностям грамматики русского языка, в частности, при обработке поисковых запросов система не учитывала словоформы, получающиеся в результате склонения и спряжения слов. Таким образом, часть документов с нужными результатами, могла выпасть из поля зрения поискового механизма, если слово в них встречалось в другом падеже, нежели в запросе (например “китайские пытки” и “китайских пыток”).
Чтобы решить эту проблему, команда разработчиков компании @Mail.ru создала дополнительный программный модуль, усовершенствующий работу механизма Google. Теперь Поиск@Mail.ru умеет учитывать все возможные формы слова в одном запросе. Эта уникальная возможность доступна только пользователям портала @Mail.ru, на сайте поисковой машины Google.com она не реализована.
Причем, пользователь может по своему желанию включать и отключать эту возможность, в зависимости от конкретной задачи. Особенно помогает поиск “с учетом морфологии” при поиске информации, которая в сети представлена плохо. Например, при запросе “румынские поэты биография” поисковая машина выдает 7 документов в режиме “без учета морфологии” и 126 документов “с учетом морфологии”. Напротив, если результатов поиска слишком много и они не очень релевантны, морфологию можно отключить, сузив таким образом область поиска.
“Мы выбрали для своего сервиса поисковый механизм компании Google, поскольку на сегодняшний день это самая качественная технология в мире, - говорит генеральный директор компании Mail.ru Дмитрий Гришин. - Однако, из-за особенностей структуры русского языка, в частности, наличия в нем изменяемых окончаний слов, русскоязычные запросы поисковым движком Google не отрабатываются на 100%. Мы доработали и адаптировали блестящий механизм компании Google под потребности российских пользователей и теперь можем с гордостью сказать, что у нас получился уникальный продукт, которому нет аналогов на российском рынке и во всем мире”.
Возможность включить морфологию при поиске была давно замечена специалистами, поэтому вопросы к представителям компании долго придумывать не пришлось. На них ответила Анна Артамонова, директор холдинга по маркетингу и PR:
- Морфологический модуль разрабатывали сами специалисты Mail.ru или использовались разработки других специалистов, например, морфологический модуль Коваленко?
- Морфологический модуль - собственная разработка Mail.Ru. За основу мы взяли данные из открытых источников, после чего они были значительно доработаны нашими специалистами.
- Каким образом технически реализовано применение морфологии - исходный запрос обрабатывается анализатором и в Google передается какой-то сложный запрос? Или делается несколько запросов, а результаты потом сливаются?
- Сначала формируется сложный запрос, включающий морфоформы заданных слов. Этот запрос передается в Гугл. Полученные результаты выдаются пользователю.
- Коль скоро поисковая система Mail.ru становится не простой трансляцией результатов из Google, нет ли у компании планов по дальнейшей модификации поиска, скажем, слияния результатов поиска по Google с результатами поиска по каталогу?
- Собственно первый этап слияния уже завершен - под каждым найденным сайтом, который есть в Каталоге, выводится соответствующая рубрика. У нас есть планы и по развитию поиска в этом направлении.
- Применение морфологии тестируется уже месяц, как за это время на возможность отреагировали пользователи?
- Думаю, лучше всего на этот вопрос ответит статистика. Уже сейчас мы чувствуем существенный прирост числа пользователей на поиске. Динамику можно наблюдать в нашем счетчике.