Яндекс открыл Национальный корпус русского языка

    Сегодня компания Яндекс объявила, что впервые в интернете в свободном доступе открыт Национальный корпус русского языка (www.ruscorpora.ru) объемом более 20 млн. слов.

    Корпус русского языка – это собрание грамматически размеченных русских текстов XIX–XXI вв. в электронной форме, удобной для автоматического поиска и научных исследований. В его состав входят тексты самых разных жанров, причем не только произведения художественной литературы, но также – в сбалансированном объеме – научные, научно-популярные, религиозные и иные сочинения, публицистика, производственно-технические, юридические и многие другие тексты. Благодаря этому Корпус максимально представительно отражает русский литературный язык во всем многообразии его письменных форм.

    Каждому слову и каждому тексту в Корпусе приписана лингвистическая аннотация на основе специального стандарта, разработанного при участии ведущих российских специалистов.

    По мнению члена-корреспондента РАН А.М. Молдована, директора Института русского языка им. В.В.Виноградова РАН, “создание Национального корпуса русского языка является задачей поистине национального значения, поскольку большинство крупных языков мира уже располагают своими национальными корпусами текстов. Решение этой задачи восполняет лакуну в отечественном языкознании и переводит научное изучение и преподавание русского языка в качественно новые условия. Без преувеличения можно сказать, что с появлением Корпуса мы впервые получаем материальную базу для объективных и достоверных суждений о современном состоянии и путях развития русского языка”.

    Корпус предназначен для всех, кто интересуется вопросами, связанными с русским языком: профессиональных лингвистов, преподавателей языка, школьников и студентов, иностранцев, изучающих русский язык.

    “Мы с удовольствием приняли участие в этом проекте, – говорит Илья Сегалович, технический директор Яндекса. – Грамматически аннотированный корпус есть не только способ изучения языка, но и важный общедоступный инструмент для создания и настройки программных средств, работающих с русскими текстами”.

    Работа над Национальным корпусом осуществляется большой группой лингвистов из Москвы, Санкт-Петербурга и других городов России в рамках программы “Филология и информатика” РАН (поддержку оказал также Российский гуманитарный научный
    фонд). Эта работа продолжается, в дальнейшем предполагается существенно увеличить количество входящих в Корпус текстов и расширить их состав.

    Поиск по корпусу с учетом морфологии, расстояния и грамматических признаков, предоставлен Яндексом.

    Основатель Searchengines.ru. С 2005 по 2014 год работал генеральным директором компании "Яндекс.Украина". Основатель и директор крупнейшего коворкинга Одессы — "Терминал 42". Ведет блог, участвует в подкастах. Больше ничего не умеет.