Иллюстрированный поиск информации в Сети

30 марта 2011

MetaQuotes Software Corp.

431

Каждый из нас хотя бы раз пытался представить, каким станет мир вокруг через пять, десять или сто лет, какое место займет сам человек в этом мире ближайшего и далекого будущего. Несмотря на всевозможные точки зрения, тенденция очевидна – развитие цивилизации происходит по пути предвосхищения потребностей и желаний человека, обеспечения быстрого и удобного информационного обмена и в целом комфортного существования в окружающем мире. Отсюда всевозможные компьютеры, сети, андроиды, роботы и т.п. n-го поколения.

Наиболее ярко попытки понять стремления человечества выражаются в развитии виртуального пространства.

В будущем веб сможет понимать ссылки и желания пользователя. Так считают британские специалисты. Создатель всемирной паутины, Тим Бернерс Ли, предсказал функционирование Интернета как семантической сети, которая позволит анализировать, понимать запросы пользователей и выдавать абсолютно релевантные данные. Сеть сможет не просто находить связи между различными сайтами, но и определять связи между людьми, их географическим положением, информацией, которую они пытаются найти.

На первый взгляд, идея кажется довольно фантастичной. Чтобы прогнозы господина Тима Бернерса Ли стали реальностью, необходимы новые технологии, иные подходы к установлению взаимосвязей между информацией, источниками информации, людьми.

Например, если пользователь ищет информацию о яблоках, что в этом случае ему смогут предложить поисковые системы? Рецепты яблок, способы выращивания яблонь, ближайшие к месту нахождения пользователя рестораны, где готовят яблочный штрудель? Или историю Apple и ближайший магазин, где продается ipod?

Все существующие системы поиска основаны на текстовых запросах, однако наилучшим способом является использование наиболее полного запроса, а текст таковым не является по умолчанию. Задача особенно усложняется, когда речь идет о поиске нетекстовой информации – изображениях, видео, музыке. Каждый, кто пытался хотя бы раз найти определенную фотографию или ресурс, на котором выложены нужные фотографии в Интернете, знает, что поиск не дает результатов, если не известно название файла или отсутствуют текстовые описания. Результаты поиска зависят от качества текстового запроса пользователя, качества текстового описания на сайте и алгоритма ранжирования ресурсов текстовыми поисковыми системами. В 95% случаев пользователь получает в ответ на свой запрос большое количество ресурсов, лишь формально относящихся к сути запроса.

Некоторые поисковые системы заявляют, что текстовый поиск хорошо работает для слов, написанных правильно, и проверка правописания решает проблему понимания пользователя. Но всегда ли достаточно слов, чтобы выразить свои мысли? Всегда ли мы точно знаем, что именно ищем или чего ждем? А если нужно найти контент на китайском сайте, не зная ни одного иероглифа?

Серьезной попыткой изменить поиск в веб-пространстве является созданная российской компанией Recogmission LLC универсальная поисковая система www.picollator.ru. Важными шагами на пути к реализации глобального проекта по разработке уникальной поисковой системы стали работы Александра Юдашкина, основателя и генерального директора Recogmission, над созданием корпоративных систем идентификации личности по цифровым изображениям CRIMNET, интернет-порталов на базе технологий распознавания образов. Отсчёт реализации идей распознавания объектов на изображениях начался в 1992 году, тогда же стала формироваться команда Recogmission.

Первая версия Picollator, основанная на разработанных Recogmission технологиях локализации объектов и распознавания образов, оказалась способной находить веб-ресурсы с изображениями, похожими на загружаемое пользователем фото. При этом результаты поиска были основаны исключительно на содержании изображений, а не текстовых описаниях. В отличие от текста, изображение является очень сжатым по способу подачи, но экстенсивным запросом, поскольку содержит слишком много информации. А что если объединить текст и изображение в одном запросе? Можно сказать - картинку словом не заменишь, в то же время картинку словом не испортишь.

Эта задача решена в новой версии, которую можно назвать поисковой системой нового поколения. И это не преувеличение. Аналогов Picollator в Интернете на текущий момент нет. По сути, система пытается понять, что именно ищет пользователь, используя различные виды данных в качестве поискового запроса. Совместное применение технологий распознавания образов и индексации текстовой и мультимедийной информации позволяет находить ресурсы, содержащие релевантные данные. Тем самым, авторам удалось разработать и применить принципиально новый подход к ранжированию результатов поиска, отличающийся от традиционных подходов концентрацией и на визуальном, и на формальном содержании.

По словам Александра Юдашкина, генерального директора Recogmission LLC, «существующая практика поиска информации в Интернет является устаревшей, поскольку: во-первых, наличие текстовых описаний не является гарантией соответствия найденной информации запросу пользователя; и, во-вторых, используемые алгоритмы ранжирования ресурсов недостаточным образом учитывают релевантность, а скорее приводят к повышению значимости известных веб-сайтов, порой не содержащих вообще нужной информации. На этом, конечно, строится бизнес многих компаний, но, к сожалению, это ограничивают информационную конкуренцию ресурсов в Интернет. Для пользователя размер сайта, число ведущих на него ссылок и т.д. далеко не всегда имеют значение».

В связи с этим данная разработка имеет практическую ценность для каждого интернет-пользователя, который хотя бы раз безуспешно пытался найти нужную информацию в киберпространстве. Комбинирование данных в запросе существенно сокращает продолжительность поиска и повышает качество результатов.

Необычным результатом стала возможность обработки рисунков. Считается, что способность сравнивать реальные лица и портреты присуща только людям и свидетельствует о высоком уровне интеллекта, способном к обобщениям. Однако технологии Picollator опровергают это мнение. Система способна обрабатывать картины и находить фотографии изображенных людей, даже если речь идет о портрете персоны n-го века.

Задача обучить искусственный интеллект аналогично природному является довольно сложной. Вместе с тем, многие идеи, казавшиеся невероятными десятки лет назад, сегодня стали для нас привычной реальностью.

www.recogmission.com

Александр Садовский Тенденции в представлении страницы результатов поиска

Обзор подготовила Катерина Баукина Сегодня я не буду рассказывать про формулу релевантности, написанную в каморке Сегаловича за очагом...