Новая система исправления ошибок от Nigma.ru

Разработчики интеллектуальной поисковой системы Nigma.ru представляют на суд пользователя новую версию своей системы исправления ошибок в запросах. Теперь посетителям Nigma. ru нужно очень сильно постараться, чтобы сделать неграмотный запрос. И вот почему.

Система исправления ошибок Nigma.ru исправляет грубые ошибки, опечатки, предлагая пользователю на выбор не один, а несколько вариантов исправлений. Корректируются ошибки, связанные с неправильным выбором раскладки клавиатуры (включая комбинации с другими ошибками). Словарь интеллектуальной поисковой системы расширен названиями известных брендов, набирать которые в строке запроса пользователь может даже на русском языке, так как Нигма автоматически расширяет поиск альтернативным написанием бренда. Разработчики Nigma.ru провели исследование, по результатам которого составили таблицу сравнения систем исправления ошибок (см.таблицу). Результаты говорят сами за себя. К тому же, обнаружились интересные особенности поисковиков. К примеру, в одном из тестируемых поисковиков по запросу, введенному на русском языке с ошибкой в написании, предлагается исправить запрос, в другом – ошибка в написании не исправляется, но, если бренд написан правильно, поиск ведется по обоим вариантам его написания. Нигма же делает и то, и другое.

Виктор Лавренко, руководитель группы разработчиков Nigma.ru: «Не так давно мы дали возможность пользователям Nigma.ru писать жалобы на неверную работу нашей поисковой системы - для того, чтобы эффективнее оптимизировать алгоритмы поиска и кластеризации. Внимательно анализируя письма пользователей, мы обнаружили, что очень часто они не находят нужной информации не из-за неправильно написанных алгоритмов, а из-за того, что просто неграмотно составляют запрос, или допускают орфографические ошибки и опечатки. Поэтому мы сконцентрировались на том, чтобы создать такую систему исправления ошибок, которая сможет исправлять и опечатки, и грубые орфографические ошибки. Мы постарались сделать так, чтобы эта система исправляла ошибки эффективнее. То есть, пользователям теперь вообще не нужно правильно оформлять запрос – мы предлагаем им все возможные орфографически правильные варианты и с помощью кластеров пытаемся угадать, что же они все-таки ищут. Тем не менее, наша система жалоб по-прежнему работает – мы разбираем каждую из них, поэтому если какой-то запрос не был исправлен – пожалуйста, пишите нам, исправим!»

Алгоритм исправления ошибок составлен следующим образом:


  • исправляется до 4 грубых ошибок, включая опечатки (например, “эзпорвленейэ”=>”исправление”);

  • пользователю на выбор предлагается не один, а несколько вариантов исправления ошибки; также приводится неисправленный вариант, чтобы пользователь из списка слов мог выбрать те, которые, по его мнению, необходимо исправить;
  • исправляются перестановочные опечатки (например, “слвоо”=>”слово”, “апра”=>”пара” “пеертсаноква”=>”перестановка”);
  • исправления сортируются по звучанию – чем ближе звучание к исправляемому слову, тем выше расположен вариант исправления (например, для запроса “ашипка” предлагаются исправления в таком порядке: ошибка, шапка, шибко, шпика и т.п.);
  • если между двумя словами пропущен пробел, предлагается исправление с вставкой пробела; при этом, если в одном из слов допущена грубая ошибка, она тоже исправляется, а также если по звучанию слова не совпадают с их написанием, например, “ЮрейЛушкоф”=>”Юрий Лужков”;
  • исправляются ошибки, допущенные по причине выбора другой раскладки клавиатуры (к примеру, “yfqnb”=>”найти” или “ьщишду”=>”mobile”);
  • также исправляются ошибки, связанные с неверным выбором раскладки клавиатуры в комбинации с другими ошибками (например, “fibgrf”=>”ашипка”=>”ошибка”); при этом, если возникает необходимость исправления ошибок со сменой раскладки, то предлагается и вариант с чистым преобразованием раскладки (например, “fibgrf”=>”ашипка”);
  • словарь расширен компьютерными терминами (к примеру, вместо исправления “сокит”=>”соки” первым вариантом предлагается исправление “сокит”=>”сокет”);
  • словарь дополнен названиями известных брендов (например, “SonyErikson”=>”Sony Ericsson”);

При этом адреса страниц, адреса электронной почты и пути не исправляются; слова, написанные в верхнем регистре, считаются аббревиатурами и также не исправляются.

Таблица сравнения систем исправления ошибок популярных поисковиков:











запрос \ поисковикNigmaGoogleYandexRambler GogoYahoo
эзпорвленейэисправлениеуправления----
пеертсанокваперестановкапереустановка ----
ЮрийЛужковЮрий ЛужковЮрий Лужков----
ЮрейЛушкофЮрий Лужков-----
ьщишдуmobile-mobilemobilemobile-
SonyEriksonSony EricssonSony ericsson---Sony Erikson
сокитcокет-соки-соки-
fibgrfошибкаfybrfашипка---
ПижоПежо/PeugeotПежоПилопежо--

Бегун. Миллион новостей от лучших изданий Рунета

Если в словаре Даля насчитывалось порядка 20 тысяч слов, а в Большой Советской Энциклопедии – 95 тыс. слов, то пакет услуг «Новостной» сервиса Бегун включает в себя уже 750 тыс

Опубликованы новые исследования контекстной рекламы от компании Бегун

Аналитический центр компании «Бегун» подготовил ряд новых исследований контекстной рекламы...

Zeitgeist Сочи 2014

После объявления города Сочи столицей Зимних Олимпийских и Параолимпийских игр 2014 года компания Google поместила праздничный логотип на домашней странице, а также...

Специалисты UnMedia анализируют результаты изменения алгоритма Яндекса

3 – 5 июня произошла смена алгоритма поисковой системы Яндекс

По инициативе группы компаний Versus открылся новый портал о стартапах

В рунете появился новый информационный портал о стартапах. Инициатором стала группа компаний Versus, крупный стратегический инвестор в сфере информационных технологий

62% еженедельных пользователей Интернета, проживающих в Москве, знают, что такое контекстная реклама

Специально для сервиса контекстной рекламы «Бегун» компания КОМКОН провела очередное исследование популярности контекстной рекламы