Гарант-Парк-Интернет выпустила программу для поиска фактов в тексте RCO Fact Extractor 1.0

1 апреля 2011

MetaQuotes Software Corp.

331

Компания Гарант-Парк-Интернет объявляет о выходе первой версии программы RCO Fact Extractor - персонального приложения для Windows, которое предназначено для аналитической обработки текста на русском языке. Основная сфера применения программы – это задачи из области компьютерной разведки, требующие высокоточного поиска информации, например, автоматический подбор материала к досье на целевой объект или же мониторинг определенных сторон его активности, освещаемых в СМИ. Fact Extractor способен отыскать в тексте описания фактов различного типа, связанных с интересующими объектами - персонами и организациями, и классифицировать их. Программа позволяет не только найти фрагменты текста, в которых говорилось, например, о поездках персоны, ее встречах, заключении договоров, сделках купли-продажи, но и точно определить все места поездок, визави и контрагентов, наименования товаров и прочее. Fact Extractor воплотил в себе наиболее продвинутые решения из области компьютерной лингвистики и искусственного интеллекта, разработанные в компании “Гарант-Парк-Интернет”.
Программа работает в среде Windows 2000 и выше и позволяет обрабатывать документы в популярных текстовых форматах из различных источников - файловой системы, заданных web-сайтов, базы данных.
Результат работы программы – таблица, которая содержит информацию о найденных фактах, связанных с объектами мониторинга, и может экспортироваться в html-формат для формирования отчета или для загрузки в стороннее приложение, работающее с уже структурированными данными.
Fact Extractor – это интеллектуальная программа для высокоточного избирательного анализа информации, поэтому она предполагает настройку шаблонов для поиска и классификации фактов самых различных типов. Такие специализированные шаблоны либо приобретаются отдельно, либо создаются пользователем самостоятельно при помощи дополнительной программы Fact Tuner. Тем не менее, даже стандартные шаблоны, включенные в комплект поставки Fact Extractor, позволяют распознавать огромное количество самых разнообразных фактов, но без детальной классификации, т.е., попросту находить события, в которых участвует целевой объект, и извлекать из текста всех прочих фигурантов этих событий, без детализации их ролей. С учетом уникальных механизмов выделения и отождествления различных обозначений объектов в тексте, даже эти стандартные возможности делают Fact Extractor незаменимым поисковым инструментом в тех случаях, когда поиск ведется по персонам и организациям.
Помимо собственно программы с графическим интерфейсом для Windows, компания “Гарант-Парк-Интернет” выпускает пакет для разработки программного обеспечения (SDK), на базе которого построен Fact Extractor и который позволяет включать возможности анализа текста в собственные приложения.
Выпуск нового продукта прокомментировал руководитель направления RCO компании “Гарант-Парк-Интернет” Владимир Плешко:
“Наша компания уже около четырех лет занимается разработкой специализированного программного обеспечения в области компьютерной лингвистики. За это время лингво-аналитические компоненты были успешно введены в эксплуатацию в корпоративных системах ряда силовых ведомств и коммерческих структур. Почему мы решили создать персональную систему? Дело в том, что несмотря на интенсивное развитие ИТ-индустрии в России, подавляющее большинство аналитических, маркетинговых отделов и служб безопасности компаний осуществляют обработку текстовой информации, связанной с интересующими объектами, практически вручную. Они вводят запрос с элементами ФИО персоны или наименованием организации в поисковую машину, а затем разгребают вываленную “кучу мусора”, поскольку поисковик не способен точно распознать большинство фамилий и наименований, не говоря уже об отборе и структурировании связанной с ними информации. Нам бы хотелось заполнить такую брешь в сфере поисковых систем, для чего мы выводим на рынок принципиально новую систему, основанную не на документальном, а на фактографическом поиске.
Очень много реализовано нами в ядре программы, начиная от алгоритмов выделения наименований организаций и персон, отождествления их полных, кратких и косвенных наименований, местоимений, до механизмов синтаксического разбора и поиска изоморфизмов в семантических сетях. Тем не менее, пользовательский интерфейс программы выглядит достаточно просто – отчет в виде таблицы найденных фактов. Экспорт результатов также весьма примитивен. Но удобство, как говорится, дело наживное. Программа же выполняет главное – превращает “сырой” текст в структурированные и типизированные данные – разложенные по полочкам факты для таблиц БД. И на сегодняшний день сделать этого не способна ни одна другая программа!
Конечно же, мы планируем развивать функционал по просмотру, фильтрации и экспорту полученных фактов. Мы, безусловно, планируем интеграцию нашего продукта с системами обработки знаний других производителей, что позволило бы полноценно использовать математические методы для анализа найденных нами фактов в совокупности. Но, в первую очередь, при развитии продукта мы будем опираться на отзывы, пожелания и нарекания со стороны наших новых пользователей, появления которых мы ожидаем в ближайшее время”.
Эмоции со стороны коллектива разработчиков выразил руководитель отдела компьютерной лингвистики “Гарант-Парк-Интернет”, канд. техн. наук Александр Ермаков:
“RCO Fact Extractor – это первая коммерческая программа, основанная на чрезвычайно сложных лингвистических алгоритмах, которая производит полный синтактико-семантический анализ русского текста на естественном языке, в том числе на языке СМИ. Я абсолютно уверен, что сколько-нибудь близкие программы такого класса не появятся на рынке еще как минимум несколько лет. И хотя мы прекрасно осознаем, сколь многое предстоит еще сделать в научении компьютера русскому языку, результаты испытаний программы позволяют утверждать, что качественный рубеж преодолен и сегодня машина уже в состоянии понимать обычный газетный текст, во всяком случае, шестьдесят процентов этого текста всего лишь с несколькими процентами ошибок! Теперь именно лингвистические подходы к анализу текста, построенные на знании законов языка и речи, будут работать в коммерческих приложениях класса data и text mining, обеспечивая качественные показатели, не достижимые при других “шаманских” подходах, используемых до настоящего времени. Вот потому сегодня мы празднуем триумф компьютерной лингвистики! Зная изнутри все особенности интеллектуального ядра программы, все достоинства и недостатки включенных в него алгоритмов и словарей, я в который раз представляю себе, как вертятся эти “колесики” вместе, и опять говорю – фантастика! Если бы несколько лет назад, начиная эти работы, я представлял себе всю сегодняшнюю систему, то я бы сказал – невозможно, этого сделать нельзя! К нашему счастью, система наращивалась поэтапно, постоянно стимулируясь извне. Вот почему мы видим в сегодняшних достижениях большую заслугу и наших клиентов из силовых ведомств, которые зачастую вынуждали нас брать нерешаемые задачи, веря в компьютерную лингвистику даже там, где мы сами в нее не верили”.
Подробную информацию о продукте, включая демонстрационную версию, можно получить на сайте http://www.rco.ru.

Новости

Гарант-Парк-Интернет выпустила программу для поиска фактов в тексте RCO Fact Extractor 1.0

Google Picasa подверглась нападению хакеров через дыру в системе безопасности

Бывший исполнительный директор Compaq занимает руководящий пост в поисковой компании

FyberSearch празднует свой первый день рождения

Бегун предлагает сурово поздравлять конкурентов

Исследования: агентства контролируют большую часть доходов от поиска

Accoona: следует ли волноваться Google?