Почта Mail.Ru научилась находить вложения по их содержанию

Mail.ru Group сообщила о появлении в Почте Mail.ru функции поиска писем по содержимому вложений.

Порядка пяти миллионов писем, проходящих через Почту Mail.Ru в сутки, содержат вложения, многие из них – в текстовом формате, например, документы, презентации, таблицы, подтверждения бронирования, интернет-заказы, счета. Теперь пользователи смогут легко найти нужный файл, даже если они забыли его название. Кроме того, часто случается так, что файл проще и быстрее найти именно по содержанию.

Для этого нужно ввести ключевые слова из текста документа в строку поиска. Почта Mail.Ru не только покажет письмо с найденным файлом, но и подсветит слово, по которому осуществлялся поиск:

Поиск по содержимому вложений – достаточно сложная задача с технической точки зрения. Эффективно ее решить удалось, во-первых, благодаря возможности парсинга офисных документов (rtf/fdoc/docx, xls/xlsx, ppt/pptx), которая появилась в Почте Mail.Ru в рамках функции онлайн-редактирования документов. Во-вторых, в Почте работает технология полнотекстового поиска, основой которой является хранилище индексов, способное меньше чем за секунду осуществить поиск по ящикам с миллионом писем практически без использования оперативной памяти.

Поиск по тексту документов работает так же, как и по тексту писем. Если ключевые слова нашлись, Почта Mail.Ru отобразит всю информацию о письме c найденным файлом: имя отправителя, тему, дату, путь в почтовом ящике, а также контекст, в котором будет выделено найденное слово. Поиск поддерживается по тексту файлов в форматах .doc, .docx, .xls, .xslx, .txt, .ppt, .pptx., .rtf. Кстати, все документы, которые хранятся в почтовом ящике Mail.Ru, можно посмотреть в разделе «Файлы».

Алексей Сергеев, заместитель вице-президента Mail.Ru Group по стратегическим продуктам: «Название файла далеко не всегда адекватно отражает его содержимое. Еще одна распространенная ситуация – когда пользователи одинаково называют несколько разных файлов. В этом случае поиск только по названию файлов становится неэффективен. Мы сами неоднократно сталкивались c подобной проблемой и рады, что можем предложить пользователям возможность ее решить».

Журналист, новостной редактор, работает на сайте с 2009 года. Специализация: интернет-маркетинг, SEO, поисковые системы, обзоры профильных мероприятий, отраслевые новости рунета.
Языки: румынский, испанский.
Кредо: Арфы нет, возьмите бубен.