Западные специалисты о неудачах поиска Google. Часть I

2

Перевод статьи In which types of search does Google most clearly fail? And what avenues and sites address these issues best or most promisingly?

В каких типах поиска Google наиболее очевидно не состоятелен? Какие обходные пути и сайты позволяют наиболее полно и перспективно разрешить эти трудности?

Под не состоятельным поиском подразумевается поиск, который не дает релевантной ссылки на первой странице. Другими словами: в каких типах поиска Google просто не может помочь? Какими другими методами (например, социальный поиск) можно попробовать обойти эту проблему? Насколько удачны эти решения и какие типы поиска все еще остаются не охваченными?

Kevin Lacker, писал алгоритмы для Google

Наиболее очевидный прокол Google — в запросах на «естественном» языке, которые Google не может корректно обработать. Некоторые примеры:

[страницы с опечатками в заголовках]

http://www.google.com/search?q=w…

К сожалению, поиск выдает только страницы с правильными заголовками, хотя в сети существуют миллионы подходящих ответов. Google не понимает «мета»-природу запроса и обрабатывает слова как ключевые слова.

[социальная сеть типа myspace, но больше]

http://www.google.com/search?q=t…

В общем, Google не может ответить на запросы, сформулированные на «естественном языке, пока на какой-то странице не появится как вопрос, так и ответ.

[какого цвета трава в Цинциннати Огайо]

http://www.google.com/search?q=w…

Часть «Цинциннати Огайо» не релевантна ответу и должна быть проигнорирована. Google это сделать трудно, так как слово «Цинциннати» практически всегда является важной частью запроса.

Michael Hochster, статистик

Kevin Lacker привел хорошие примеры нестандартных запросов, сложных для поисковых машин. Мне кажется, существует гораздо больше запросов на человеческом языке, для которых Google не настолько полезен, как это бывает обычно. Для примера:

  1. Исследование для принятия решения о покупке.
  2. Чем заняться? (когда вы не знаете, чем хотели бы заняться).
  3. Найти не знаменитого человека с распространенным именем.
  4. Выяснить, что происходит прямо сейчас.
  5. Найти полный список на любую тему (пока в сети нет страницы с таким список на ней).
  6. Найти научную информацию на более глубоком уровне, чем Wikipedia.

Greg Lindahl, CTO at blekko

У Google есть проблема с некоторыми обширными категориями поиска, такими как поиск по вопросам здоровья. В теме здоровья очень много спама и процветают контентные фермы, кроме того, существует обилие различных категорий (западная медицина, остеопатия, гомеопатия, траволечение, китайская медицина, и т.д).если вы заинтересованы только в одном из этих подразделов, то… действительно трудно найти результаты только по традиционным западным методам лечения.

blekko, как вы уже могли догадаться, достаточно хорошо работает с запросами по тематике здоровья. Зачастую мы добавляем к запросу /, когда видим, что запрос явно медицинский и получаем качественные результаты без спама. Если нужно найти /гомеопатию или /акупунктуру, это также просто.

Antone Johnson, сотрудник Excite в 2000-02

Поиск локальных продуктов и сервисов в режиме реального времени. Огромное количество денег остаются не потраченными просто потому, что я не могу найти, где можно купить [любой низкочастотный запрос по названию предмета эзотерики] в радиусе X-миль прямо сейчас. Поиск без вариантов приводит к Интернет-продавцам, что прекрасно, если я хочу сделать заказ on-line, использовать кредитку, подождать день-два или сколько там для доставки, и гарантировано быть дома (или на работе), чтобы встретить посылку. Если же мне нужна запасная батарейка для определенной модели моей цифровой камеры уже сегодня, даже в огромном городе типа Сан-Франциско или Лос-Анджелеса ее достаточно непросто найти и лично купить прямо сейчас.

Если сейчас 9 часов вечера, то в качестве бонуса было бы хорошо, если поисковик мог показать мне магазины, которые работают до 10. Еще лучше было бы, если я мог сравнить цены и расстояние, чтобы оптимизировать покупку (т.e., магазин X поставил цену на $2 больше, но он на 15 минут ближе). Вместо этого, мне либо нужно отложить покупку, либо сделать тоже самое, что делали в 1951, а не 2011: обзвонить или объездить все местные магазины (бытовой техники или камер, в данном примере), чтобы узнать: продают ли они батарейки, за сколько и есть ли то, что нужно, в наличии.

Тоже самое с сервисами. Воскресенье, Пасха; какие кофейни в Беркли открыты? (реальный пример прошлых выходных). Или, какие парикмахерские открыты, чтобы постричься в праздники, насколько большая очередь? Какие прачечные и химчистки дольше всего работают в ближайших окрестностях, как у них с ценами? И так далее.

Alan Morrison, исследует применение IT в жизни

Существует целая вселенная поиска, выходящая за рамки поиска по ключевым словам и документов, основанных на поиске по PageRank. Google мощно работает, когда может краулировать огромный веб и разработать по нему шкалу PageRank, но не работает внутри корпоративной системы, которая не имеет такой шкалы как публичный веб.

Корпоративный поиск — крепкий орешек. Однако, существует множество примеров других типов поиска вне публичного веба, которые не делает Google. Вот пара интересных примеров. Результат работы этих систем — не список результатов, а определенные ответы:

  1. TrueKnowledge (http://www.trueknowledge.com/) относится к обучаемым машинам; он может дать конкретные ответы на вопросы. Зависит от курируемых баз данных. TrueKnowledge может ответить с учетом более 433 миллионов фактов, его база знаний постоянно растет по мере того как пользователи вносят туда данные. К примеру, я спросил : «Сколько ядерных реакторов находится в Японии?» Google дал мне сайт с хорошо документированным ответом на этот вопрос. Я «скормил» ссылку TrueKnowledge, в котором уже есть полный ответ на такой вопрос как «Сколько в большой лиге бейсбольных команд?»
  2. Wolfram|Alpha (http://www.wolframalpha.com) тоже можно назвать обучаемой машиной, однако за ней стоит больше вычислительных мощностей. Stephen Wolfram хорошо описывает, что такое Wolfram|Alpha в блоге http://blog.stephenwolfram.com/2.… Одна из особенностей, о которых он говорит, состоит в следующем: «Wolfram|Alpha конвертирует естественный язык в точные, поддающиеся вычислению внутренние формы. Затем он обрабатывает эти формы и использует свои знания для ответа на вопрос». Таким образом, он сравнивает W|A с IBM Watson : 

Tara Calishain, много писала о предмете

Я вижу, что большинство ответов о слабых местах поиска, хочу добавить и свой источник беспокойства: никто не делает хороших поисковых систем для подкастов. Наименее неудобен iTunes, однако он также далеко не хорош.

Не верится, что подкасты — такой застойный род медиа. Место для поисковой системы по подкастам просто обязано быть.

Irina Shamaeva, @braingain

Я знаю, что не совсем по теме отвечаю на ваш вопрос, но могу сказать, что для тех из нас, кто использует расширенные возможности поиска Google (с использованием операторов и звездочек), наиболее болезненный момент — это бан нас как «ботов», который вынуждает вводить каптчи или сидеть в бане некоторое время. В этом случае мы вообще не получаем результатов. (Да, я знаю о каптче в аккаунте gmail и других способах предотвратить это). Мне интересно, насколько Google есть дело до таких продвинутых пользователей, чтобы исправить это. Или это такой способ прикрыть слабое быстродействие? Со временем произошли незначительные улучшения, но только лишь незначительные. Google потерял часть моих коллег, перешедших из-за этого на Bing.

Возвращаясь к вопросу, я считаю, что поиск данных и терминологии лучше делать на семантических поисковых системах, как kngine.com.

Что касается социального поиска, специализированные сайты типа topsy.com дают больше результатов, чем Google и, по моему опыту, даже больше, чем сам Twitter.

Michal Avny, специалист по стратегии и поиску в режиме реального времени

Google стоит улучшить обработку запросов и результаты как по последовательности, так и по релевантности.

Google позволяет поиск только по ключевым словам, но не все темы и события можно с легкостью описать набором слов и операторов. Более того, Google не распределяет результаты по темам или классам . Он предлагает ряд связанных запросов и предлагает запросы, которые могут намекнуть на возможные категории и классы поиска, однако это скорее не решение, а обходной путь. Им стоит внедрить определенный уровень контекстного поиска.

Google не справляется там, где контекст является критичным для поиска. Они не справляются с поиском в режиме реального времени. Данные «реального времени» коротки и не структурированы; они не имеют заголовков или сниппетов, чтобы сделать информацию читаемой, в них трудно определить, что именно искать, потому что формулировка тем также происходит в режиме реального времени, а релеватность тесно связана с социальным графом. Это та область, где поиск по ключевым словам очевидно не работает, а список совпадающих результатов и подавно.

Интересно читать ответы на вопрос: Google Realtime Search: отличается ли в корне поиск в режиме реального времени от других поисковых сервисов, которые уже предлагает Google?

Люди, которые работали над Google Search объясняют: «…Конечно, несмотря на различия между запросами к поиску в режиме «реального времени» и запросами, не зависящими от времени, многие основные предпосылки к разработке хорошего поискового продукта, такие как скорость, простота и качество, остаются прежними. Google хорошо умеет повторно использовать многие из тех же самых техник и структур, которые уже использовались для выполнения этих целей».

И это — ключевой прокол Google; не все поисковые проблемы можно концептуально одинаково решить.

Charles H Martin, исследователь машинного обучения

Google — классическая хаотичная система. Введите два поисковых запроса примерно одинакового значения, отличающихся всего одним словом и результаты могут разительно отличаться. Это базовая NLP-проблема приводит к тому, что при практически идентичном поиске, релевантный контент будет получен только в одном случае.

Эта недостаточность была решена Demand Media.

Я бы сказал, что фермы типа Demand Media «решили» эту NLP-проблему для Google, предоставив контент соответствующего (хотя и более чем скромного) качества на заданную поисковую тему.

В реальности, при работе с Google (или Bing, Yahoo…), необходимо оптимизировать каждый индивидуальный запрос с целью получения хорошего освещения практически любой темы.

Что сделали «контентные фермы»? Они эффективно оптимизировали обширные классы индивидуальных запросов, сгруппировав их вместе на едином источнике информации. В самом деле, Demand Media предоставляет поиск по связанному контенту, так что если даже изначальный запрос был не совсем тем, который нужен, вы можете немедленно найти связанный с этим запросом контент такого же уровня качества и полноты.

Часть II