Поиск информации в компьютерных сетях: новые подходы

Автор — Станислав Тактаев.

1. Задача поиска информации, существующие подходы и проблемы

1.1. Основы поиска информации в Интернете

[1]
Поиск информации — задача, которую человечество решает уже многие столетия. По мере роста объема информационных ресурсов, потенциально доступных одному человеку (например, посетителю библиотеки), были выработаны все более изощренные и совершенные поисковые средства и приемы, позволяющие найти необходимый документ.

Все найденные за много лет средства и приемы поиска информации доступны и эффективны и при поиске информации в Интернет.

Рассмотрим общую схему: АВТОР создает ДОКУМЕНТ. У ПОЛЬЗОВАТЕЛЯ возникает ИНФОРМАЦИОННАЯ ПОТРЕБНОСТЬ. Эта информационная потребность часто (как правило) даже не может быть точно выражена словами, и выражается только в оценке просматриваемых документов — подходит или не подходит. В теории информационного поиска вместо слова “подходит” используют термин “ПЕРТИНЕНТНЫЙ ДОКУМЕНТ”, а вместо “не подходит” — “не пертинентный”. Слово “пертинентный” происходит от английского “pertinent”, что значит “относящийся к делу, подходящий по сути”. Субъективно понимаемая цель информационного поиска — найти все пертинентные и только пертинентные документы (мы хотим найти “только то, что хотим, и ничего больше”).

Эта цель — идеальна и пока недостижима. Мы часто в состоянии оценить пертинентность документа только в сравнении с другими документами. Для того, чтобы было с чем сравнивать, необходимо некоторое количество непертинентных документов. Эти документы называются — “ШУМ”. Слишком большой шум затрудняет выделение пертинентных документов, слишком малый — не дает уверенности в том, что найдено достаточное количество пертинентных документов. Практика показывает, что когда количество непертинентных документов лежит в интервале от 10% до 30%, ищущий чувствует себя комфортно, не теряясь в море шума и считая, что количество найденных документов — удовлетворительно.

Когда документов много, используется информационно-поисковая система (ИПС). В этом случае информационная потребность должна быть выражена средствами, которые “понимает” ИПС — должен быть сформулирован ЗАПРОС.

Запрос редко может точно выразить информационную потребность. Однако многие ИПС по причинам, описанным ниже не могут определить, соответствует ли тот или иной документ запросу. Для решения этой задачи был введен синтетический критерий — Степень соответствия документа запросу, который называется РЕЛЕВАНТНОСТЬЮ. Релевантный документ может оказаться непертинентным и наоборот.

1.2. Виды информационно поисковых систем

Информационно-поисковые системы (ИПС) Интернет, при всем их внешнем разнообразии, также попадают в один из этих классов. Поэтому, прежде чем знакомиться с этими ИПС, рассмотрим абстрактные алфавитные (словарные), систематические и предметные ИПС. Для этого дадим определение некоторым терминами из теории информационного поиска.

Классификационные информационно-поисковые системы

В классификационных ИПС используется иерархическая (древовидная) организация информации, которая называется КЛАССИФИКАТОРОМ. Разделы классификатора называются РУБРИКАМИ. Библиотечный аналог классификационной ИПС — систематический каталог. Классификатор разрабатывается и совершенствуется коллективом авторов. Затем его использует другой коллектив специалистов, называемых СИСТЕМАТИЗАТОРАМИ. Систематизаторы, зная классификатор, читают документы и приписывают им классификационные индексы, указывающие, каким разделам классификатора эти документы соответствую.

Предметная ИПС Web-кольца

Предметная ИПС с точки зрения пользователя устроена наиболее просто. Ищи название нужного предмета своего интереса (предметом может быть и нечто невещественное, например, индийская музыка), а с названием связаны списки соответствующих ресурсов Интернет. Это было бы особенно удобно, если полный перечень предметов невелик.

Словарные ИПС

Культурные проблемы, связанные с использованием классификационных ИПС, привели к созданию ИПС словарного типа, с обобщенным англоязычным названием search engines. Основная идея словарной ИПС — создать словарь из слов, встречающихся в документах Интернет, в котором при каждом слове будет храниться список документов, из которых взято данное слово.

Теория информационного поиска предполагает два основных алгоритма работы словарных ИПС: с использованием ключевых слов и с использованием дескрипторов. В первом случае, для оценки содержимого документа используются только те слова, которые в нем встречаются, и по запросу ИПС сопоставляет слова из запроса со словами документа, определяя по количеству, расположению, весу слов из запроса в документе его релевантность. Все работающие ИПС по историческим причинам используют этот алгоритм, в различных модификациях.

При работе с дескрипторами индексируемые документы переводятся на некоторый дексрипторный информационный язык. [2] Дескрипторный информационный язык, как и любой другой язык, состоит из алфавита (символов), слов, средств выражения парадигматических и синтагматических отношений между словами. Парадигматика предусматривает выявление скрытых в естественном языке лексико- семантических отношений между понятиями. В рамках парадигматических отношений можно рассматривать, например, синонимию, омонимию. Синтагматика исследует такие отношения между словами, которые позволяют объединять их в словосочетания и предложения. Синтагматика включает правила построения слов из элементов алфавита (кодирование лексических единиц), правила построения предложений (текстов) из лексических единиц (грамматика).

То есть, запрос пользователя переводится в дескрипторы и обрабатывается ИПС уже в этой форме. Такой подход более затратен по вычислительным ресурсам но и потенциально более продуктивен, так как позволяет отказаться от критерия релевантности и работать непосредственно с пертинентностью документов.

Ранжирование результатов поиска

Словарные ИПС способны выдавать списки документов, содержащие миллионы ссылок. Даже просто просмотреть такие списки невозможно, да и не нужно. Было бы удобно иметь возможность задать формальные критерии (хотя бы относительной) важности (с точки зрения пертинентности) документов с тем, чтобы наиболее важные документы попадали бы в начало списка. Все ИПС в настоящее время уделяют основное внимание именно алгоритму ранжирования полученных ссылок.

Наиболее часто используемыми критериями при ранжировании в ИПС являются

  наличие слов из запроса в документе, их количество, близость к началу документа, близость к друг другу;
  наличие слов из запроса в заголовках и подзаголовках документов (заголовки должны быть специально отформатированы);
  Количество ссылок на данный документ с других документов;
  «рекспектабельность» ссылающихся документов.

1.3 Современные проблемы поисковых систем

Все основные технологические проблемы Интернет технологий, которые мы сейчас видим и зачастую ощущаем на себе, имеют своей причиной то, что когда эти технологии разрабатывались никто из разработчиков (по их собственным высказываниям) не представлял себе, что Интернет станет глобальной информационной средой. Все это полностью относится и к поисковым системам.

Архитектура

Современная поисковая система имеет трехуровневую архитектуру:

  crawler (сборщик) — осуществляет сканирование Интернет ресурсов в поисках изменений на страницах;
  indexer (индексатор) — индексирует ресурсы, строит базы данных по ключевым словам, хранит эти базы данных в виде, удобном для поиска по ним;
  gateway (шлюз) — осуществляет прием запросов от пользователей и выдачу им информации из базы данных.
В современных ИПС вся поисковая информации, вплоть до копий исходных документов, хранится в самой ИПС. Это было обусловлено ненадежностью ранних каналов связи и компьютерного оборудования. Это давало возможность пользователю ИПС фактически независимо от доступности документа ознакомиться с ним. Сейчас это ведет к том, что ИПС вынуждены наращивать свою вычислительную мощность пропорционально росту количества документов в Сети, то есть экспоненциально. Так, в Google сейчас работает более 100 компьютеров — серверов.

В современных ИПС Crawler самостоятельно сканирует Сеть в поисках новых документов. В условиях количества документов измеряемого в сотнях тысяч такой способ позволял быстро наполнить базу ИПС и соответственно представить там максимальное количество документов. Сейчас этот подход исчерпал себя, так как ни одна ИПС не охватывает более 30-35% документов в Сети. Более того, все изменения и перемещения документов попадают в базу ИПС со значительным опозданием (до 4 недель), то есть найти актуальную информацию в Сети невозможно.

Алгоритмы поиска и ранжирования

То есть, Основной проблемой современных поисковых систем является то, что из за фактически устаревшей архитектуры они не могут обеспечить качественный поиск информации.

Дело в том, что средняя длина поисковых запросов мала — 2-3 слова. Естественно, построить качественную пертинентную выборку из миллиарда документов по такому «слепку информации» просто невозможно. Естественным выходом здесь является сохранение контекста запросов пользователя, их истории, предпочтений. Но это не представляется возможным сделать на стороне сервера (т.к. он перегружен)

Далее, как видно, из критериев ранжирования, реальный критерий пертинентности документа — наличие слов из запроса не так сильно влияет на его ранжирование в результатах поиска. С другой стороны, использование синтетических критериев дает возможность манипулирования результатами вычислений ранга страницы, с чем и борются все ИПС. Такая ситуация ведет к снижению качества поиска, поскольку потенциально более пертинентные документы неминуемо оттесняются своими «оптимизированными» конкурентами в конец списка. Наверно, многие сталкивались с тем, что реально полезные ресурсы в поисковиках находятся на второй -третьей страницы выдачи поискового запроса.

Изначально в Интернете вся информация была представлена в HTML, причем без таблиц, картинок и рисунков. Все эти вещи появились в Сети позже. Естественно, что алгоритмы ИПС ориентированы именно на текст. Сейчас объем мультимедийного наполнения (таблицы, базы данных, рисунки, музыка, видео) по объему уже превышает объем текстов. А найти информационную сводку или (тем более!) нужный музыкальный фрагмент, не зная его дополнительных параметров — просто невозможно.

Резюмируя, существующая архитектура обеспечивает работоспособность поисковой системы в условиях низкой скорости и ненадежности каналов связи, низкой вычислительной мощности клиентского оборудования, не очень больших объемов (сотни тысяч, миллионы) документов, что было актуально в 90-х годах ХХ века. Сейчас все эти предпосылки устарели, высокоскоростные и надежные каналы связи стали обычным явлением, в несколько десятков раз выросла вычислительная мощность клиентских компьютеров, но и число документов в Сети выросло в десятки тысяч раз, приближаясь к 10 миллиардам. Следовательно, необходима иная архитектура, реализующая эти требования.

Основными моментами новой архитектуры ИПС , на наш взгляд, должны стать:

1. Переход к распределенной модели вычислений;

2. Переход от модели «один поиск на всех» к модели персонального поиска;

3. Переход от критериев релевантности к критерию пертинентности;

4. Переход от поиска только текстовой информации к распознаванию и поиску мультимедийной информации.

В общем, решения пп. 1,2 достаточно просты технически и организационно, но решения пп. 3 и 4 требуют нового теоретического подхода к поиску информации. Для реализации этого подхода применена теория пространства понятий.

2 Введение в теорию понятий


2.1 Постановка задачи

Целью данной работы является выработка теоретического подхода к математическому анализу смысла понятий как объектов окружающего мира и, с определенным уровнем абстракции, выражаемых в человеческих языках, путем их систематизации в многомерном пространстве ( Пространстве понятий) и разработка математического аппарата преобразования (действия над) понятиями — алгебры понятий.

Для современной технологии поиска необходима такая модель представления информации, которая позволит распознавать хранимые в ней знания без использования человеческого интеллекта или артефактных алгоритмов (таких как нейронные сети). Здесь уместно провести аналогию между растровым и векторным способом хранении графических изображений, то есть если из содержимого растрового файла нельзя однозначно сказать, как построено хранимое изображение, то из векторного формата способ построения очевиден.

Практически вся информация, хранимая человечеством сейчас представлена именно в «растровом» формате. Исключение составляют различные структурированные массивы информации и алгоритмы, но опять же, информация, зафиксированная в них скорее похожа улов в сети с ячейками размером метр на метр, то есть в нее попадаются только самые общие описания и правила. Очевидно, что такой подход дает слишком абстрактные модели и их применение в реальном мире невозможно без вмешательства человеческого интеллекта.

Следовательно, необходимо найти такой способ описание знаний, который бы был, по существу «векторным» форматом представления информации. Это и составляет собой суть теории пространства понятий.

Другими словами, основная идея состоит в том, чтобы применять не только существующую модель описания знаний, базирующуюся на ассоциациях, но и модель, базирующуюся на определении точного положения понятия в некоей системе координат. Автор доказывает, что для каждого понятия, ассоциированного с каким-либо объектом окружающего мира, существует не только определение через ассоциации («кресло похоже на диван, но диван больше, на нем можно лежать»), но и определение, как некоторой области некоего «пространства понятий». Следовательно, существует и возможность построения однозначного соответствия (отражения) между неким лингвистическим выражением, описывающим некоторый предмет, свойство или действие в окружающей реальности, и областью многомерного пространства понятий N{x1,x2,…, xn}, где Xn n??- примеры координатных осей (размерностей) данного пространства.

Тогда становится возможным описание отношений между понятиями реального мира как расстояний, через уравнения алгебры понятий, в основе которых лежит векторная алгебра, построение карты пространства понятий и дальнейшего изучения его топологии.

В настоящее время преобладает иной подход, когда используются различные суррогатные заменители расстояния — «семантические связи», и т.д. , как правило, отражающие иерархические и сетевые соотношения между понятиями. «Близость», «отдаленность» в этих контекстах являются абстрактными величинами, они не дают возможности численного измерения ( а значит и точной оценки) расстояния только для понятийно близких вещей (белый и черный, теплый и холодный). А насколько далеки друг от друга понятия «черный» и «холодный»? Это расстояние больше, чем между «шершавый» и «синий»? А какие вещи понятийно ближе друг к другу — кресло и бутылка или компьютер и кружка?

Идея пространства понятий ни в коем случае не отменяет иерархических, конструктивных и прочих взаимосвязей, но дополняет их, делая их исчислимыми. Например, можно достаточно долго описывать положение листа на дереве, передвигаясь к нему от ствола, по веткам и веточкам. Его гораздо проще можно найти, задав абсолютные полярные координаты: горизонтальное и вертикальное направление, длину вектора от осевой линии ствола у земли. Вместо достаточно объемного описания путешествия по дереву, мы получаем 3 (!)числа.

2.2 Основные определения

Пространство понятий — набор из N одномерных пространств, каждое из которых содержит в себе определенный ранжируемый признак объекта.

Понятие — область пространства понятий (подпространство), соответствующая какому-то объекту в реальном мире.

Действие — вид области в пространстве понятий — вектор, соответствующий процессу, производимому над объектом в реальном мире и изменяющее координаты объекта в ПП. В общем случае действие — это тоже подпространтсво.

Модификатор- область в пространстве понятий, соответствующий эпитету в реальном языке (прилагательное — Модификатор существительного)

Корректор — вектор — в пространстве понятий, соответствующий эпитету в реальном языке (наречие- Корректор глагола)

Домен — именованная многомерная область (подпространство) в пространстве понятий, которая объединяет понятия в группы по иерархическим признакам. (понятие «стул» в домене «Мебель», Нож в домене «кухонное оборудование»). Иерархические отношения между понятиями регулируются доменами. Домены имеют внутреннюю структуру пространства понятий. По сути, это «разрезы» пространства понятий по определенным признакам.

2.3 Пространство понятий. Развернутая и свернутая форма представления.

Если принять, что все существующие понятия окружающего мира, описанные в развитых человеческих языках, отражаются в многомерное пространство понятий N (Notion — понятие), то любое понятие, будь то существительное, глагол, прилагательное, или иная часть речи, несущая определенный смысл, может быть отражено как

Entity(существительное, прилагательное, noun, adjective) a’N{{x1,x1’},{x2,x2’},…, |{xn,xn’}|}, где Not- n-мерная область в n- мерном пространстве, где na’?, а x1…n — измерения (оси координат) данного пространства.

Глагол, Наречие(Verb, adverb) a’ erb {|x1-x1’|,|x2-x2’|,…, |xn-xn’|}, где Verb — вектор в n-мерном пространстве.

В общем случае, действия (глаголы) также могут быть описаны как области пространства понятий, каковыми они на самом деле и являются. Разделение область — векторы сделаны для удобства понимания теории и проведения расчетов.

2.4 Разрешенные области и действия

Если операция над понятием вида:

i+1= i + j где i+1, i — произвольные области понятий, а j — произвольный вектор,

истинна,то есть после выполнения некоего действия над понятием, мы получаем новое известное понятие, то данное действия с понятием является разрешенным, так как в реальном мире оно соответствует некоей реальной операции над реальным объектом, приводящей к реальному результату.

если Ложна, то данное сочетание является еще неописанным в пространстве понятий, “белым пятном”. Ложность выражения не означает неосуществимости данной операции, но дает ресурс для поиска новых решений, открытий и изобретений. Возможно, раньше никто не задумывался о возможности такой операции и такого результата.

3 Построение поисковой системы с позиций теории пространства понятий


3.1 Пертинентный поиск

Для решения проблемы перехода к пертинентности, предлагается использовать для описания страниц дескрипторный язык вместо ключевых слов. Дескриптор — одно или несколько слов данного языка (синонимов), характеризующих данное понятие. Здесь дескриптор соответствует понятию. Данное переименование принято из целей соответствия принятой лингвистической терминологии.

С точки зрения теории понятий дескриптор — вектор, d{x1,x2,xi,…xn}, где x1,x2,xi, — инверсные расстояния до соответствующих осей координат пространства понятий, или, другими словами, это веса, притягивающие данный дескриптор к тому или иному разделу иерархического каталога тематических областей поиска.

То есть, для реализации задачи пертинентного поиска, необходимо искать те документы которые лежат в той же области пространства понятий, что и запрос.

3.2 Поиск в мультимедийном окружении

Первой задачей поиска в мультимедийном окружении является поиск в базах данных. В настоящее время уже накоплены большие объемы информации в числовых данных которые однако недоступны для поиска через Интернет, так как (очевидно) не индексируются существующими ИПС.

Для организации поиска в табличной информации, необходимо вербализовать эти данные, то есть перевести столбцы чисел в некие текстовые отчеты, в которых будет произведен анализ данных в таблице.

Нужна некая система построения отчетов (генератор отчетов) для написания отчетов на основании заданных рядов данных на естественных языках с элементами математического и статистического (в будущем-эвристического) анализа. Отличительной особенностью предлагаемой системы является то, что она имитирует действия человека, читающего доклад с использованием графиков и таблиц, то есть является следующим шагом в деле построения отчетов.

Второй наиболее реализуемой задачей представляется задача распознавания речи и текста на изображениях, в том числе и рукописного.

При распознавании устной речи и рукописного текста на естественных языках возникают проблемы, следующего рода. Существуют слова, близкие по звучанию, по набору фонем. Например, «шесть» и «шерсть» (рус.), ship and sheep в английском. Человек достаточно легко справляет с различением таких слов за счет понимания контекста, в котором они произнесены, тогда как для компьютерных систем различить такие близкие наборы звуков составляет почти неразрешимую задачу. Следовательно, для распознавание речи нужно не только слышать ее, но еще и понимать о чем идет речь. Человек однозначно воспринимает контекст и «домысливает» нерасслышанные фонемы, в то время как существующие алгоритмы этот контекст просто не учитывают.

Аналогичные проблемы возникают и при распознавании рукописного текста. То есть, вариации в написании символов различными людьми не дают возможности построить однозначное соответствие между рукописным символом и буквой алфавита, что не дает возможности точно построить то или иное слово по его рукописному аналогу.

Проблема распознавания решается построением выражения алгебры понятий для тех гипотез значений, которые наиболее вероятны для звучаний и написаний распознаваемых слов. (То есть рассматриваются все варианты слов, которые могут быть получены из распознанной информации) . Так как распознавание происходит вместе с предыдущим контекстом, то, при проведении отражения в пространство понятий, сразу можно проверить попадание понятия в область, которая соответствует данному контексту (разрешенную область, см. 2.4), используя механизм алгебры понятий. То есть, результат описанных в тексте преобразований понятий попадает в определенную область, разрешенную по данному контексту и значение для распознавания будет выбираться именно из этой (результирующей) области., что решит проблему низкого качества распознавания.

Основатель Searchengines.ru. С 2005 по 2014 год работал генеральным директором компании "Яндекс.Украина". Основатель и директор крупнейшего коворкинга Одессы — "Терминал 42". Ведет блог, участвует в подкастах. Больше ничего не умеет.