Новая система исправления ошибок от Nigma.ru

    Разработчики интеллектуальной поисковой системы Nigma.ru представляют на суд пользователя новую версию своей системы исправления ошибок в запросах. Теперь посетителям Nigma. ru нужно очень сильно постараться, чтобы сделать неграмотный запрос. И вот почему.

    Система исправления ошибок Nigma.ru исправляет грубые ошибки, опечатки, предлагая пользователю на выбор не один, а несколько вариантов исправлений. Корректируются ошибки, связанные с неправильным выбором раскладки клавиатуры (включая комбинации с другими ошибками). Словарь интеллектуальной поисковой системы расширен названиями известных брендов, набирать которые в строке запроса пользователь может даже на русском языке, так как Нигма автоматически расширяет поиск альтернативным написанием бренда. Разработчики Nigma.ru провели исследование, по результатам которого составили таблицу сравнения систем исправления ошибок (см.таблицу). Результаты говорят сами за себя. К тому же, обнаружились интересные особенности поисковиков. К примеру, в одном из тестируемых поисковиков по запросу, введенному на русском языке с ошибкой в написании, предлагается исправить запрос, в другом – ошибка в написании не исправляется, но, если бренд написан правильно, поиск ведется по обоим вариантам его написания. Нигма же делает и то, и другое.

    Виктор Лавренко, руководитель группы разработчиков Nigma.ru: «Не так давно мы дали возможность пользователям Nigma.ru писать жалобы на неверную работу нашей поисковой системы — для того, чтобы эффективнее оптимизировать алгоритмы поиска и кластеризации. Внимательно анализируя письма пользователей, мы обнаружили, что очень часто они не находят нужной информации не из-за неправильно написанных алгоритмов, а из-за того, что просто неграмотно составляют запрос, или допускают орфографические ошибки и опечатки. Поэтому мы сконцентрировались на том, чтобы создать такую систему исправления ошибок, которая сможет исправлять и опечатки, и грубые орфографические ошибки. Мы постарались сделать так, чтобы эта система исправляла ошибки эффективнее. То есть, пользователям теперь вообще не нужно правильно оформлять запрос – мы предлагаем им все возможные орфографически правильные варианты и с помощью кластеров пытаемся угадать, что же они все-таки ищут. Тем не менее, наша система жалоб по-прежнему работает – мы разбираем каждую из них, поэтому если какой-то запрос не был исправлен – пожалуйста, пишите нам, исправим!»

    Алгоритм исправления ошибок составлен следующим образом:

    • исправляется до 4 грубых ошибок, включая опечатки (например, “эзпорвленейэ”=>”исправление”);

    • пользователю на выбор предлагается не один, а несколько вариантов исправления ошибки; также приводится неисправленный вариант, чтобы пользователь из списка слов мог выбрать те, которые, по его мнению, необходимо исправить;

    • исправляются перестановочные опечатки (например, “слвоо”=>”слово”, “апра”=>”пара” “пеертсаноква”=>”перестановка”);

    • исправления сортируются по звучанию – чем ближе звучание к исправляемому слову, тем выше расположен вариант исправления (например, для запроса “ашипка” предлагаются исправления в таком порядке: ошибка, шапка, шибко, шпика и т.п.);

    • если между двумя словами пропущен пробел, предлагается исправление с вставкой пробела; при этом, если в одном из слов допущена грубая ошибка, она тоже исправляется, а также если по звучанию слова не совпадают с их написанием, например, “ЮрейЛушкоф”=>”Юрий Лужков”;

    • исправляются ошибки, допущенные по причине выбора другой раскладки клавиатуры (к примеру, “yfqnb”=>”найти” или “ьщишду”=>”mobile”);

    • также исправляются ошибки, связанные с неверным выбором раскладки клавиатуры в комбинации с другими ошибками (например, “fibgrf”=>”ашипка”=>”ошибка”); при этом, если возникает необходимость исправления ошибок со сменой раскладки, то предлагается и вариант с чистым преобразованием раскладки (например, “fibgrf”=>”ашипка”);

    • словарь расширен компьютерными терминами (к примеру, вместо исправления “сокит”=>”соки” первым вариантом предлагается исправление “сокит”=>”сокет”);

    • словарь дополнен названиями известных брендов (например, “SonyErikson”=>”Sony Ericsson”);

    При этом адреса страниц, адреса электронной почты и пути не исправляются; слова, написанные в верхнем регистре, считаются аббревиатурами и также не исправляются.

    Таблица сравнения систем исправления ошибок популярных поисковиков:











    запрос \ поисковик Nigma Google Yandex Rambler Gogo Yahoo
    эзпорвленейэ исправление управления
    пеертсаноква перестановка переустановка
    ЮрийЛужков Юрий Лужков Юрий Лужков
    ЮрейЛушкоф Юрий Лужков
    ьщишду mobile mobile mobile mobile
    SonyErikson Sony Ericsson Sony ericsson Sony Erikson
    сокит cокет соки соки
    fibgrf ошибка fybrf ашипка
    Пижо Пежо/Peugeot Пежо Пило пежо
    Основатель Searchengines.ru. С 2005 по 2014 год работал генеральным директором компании "Яндекс.Украина". Основатель и директор крупнейшего коворкинга Одессы — "Терминал 42". Ведет блог, участвует в подкастах. Больше ничего не умеет.