Яндекс открыл Национальный корпус русского языка

Сегодня компания Яндекс объявила, что впервые в интернете в свободном доступе открыт Национальный корпус русского языка (www.ruscorpora.ru) объемом более 20 млн. слов.

Корпус русского языка – это собрание грамматически размеченных русских текстов XIX–XXI вв. в электронной форме, удобной для автоматического поиска и научных исследований. В его состав входят тексты самых разных жанров, причем не только произведения художественной литературы, но также – в сбалансированном объеме – научные, научно-популярные, религиозные и иные сочинения, публицистика, производственно-технические, юридические и многие другие тексты. Благодаря этому Корпус максимально представительно отражает русский литературный язык во всем многообразии его письменных форм.

Каждому слову и каждому тексту в Корпусе приписана лингвистическая аннотация на основе специального стандарта, разработанного при участии ведущих российских специалистов.

По мнению члена-корреспондента РАН А.М. Молдована, директора Института русского языка им. В.В.Виноградова РАН, “создание Национального корпуса русского языка является задачей поистине национального значения, поскольку большинство крупных языков мира уже располагают своими национальными корпусами текстов. Решение этой задачи восполняет лакуну в отечественном языкознании и переводит научное изучение и преподавание русского языка в качественно новые условия. Без преувеличения можно сказать, что с появлением Корпуса мы впервые получаем материальную базу для объективных и достоверных суждений о современном состоянии и путях развития русского языка”.

Корпус предназначен для всех, кто интересуется вопросами, связанными с русским языком: профессиональных лингвистов, преподавателей языка, школьников и студентов, иностранцев, изучающих русский язык.

“Мы с удовольствием приняли участие в этом проекте, – говорит Илья Сегалович, технический директор Яндекса. – Грамматически аннотированный корпус есть не только способ изучения языка, но и важный общедоступный инструмент для создания и настройки программных средств, работающих с русскими текстами”.

Работа над Национальным корпусом осуществляется большой группой лингвистов из Москвы, Санкт-Петербурга и других городов России в рамках программы “Филология и информатика” РАН (поддержку оказал также Российский гуманитарный научный
фонд). Эта работа продолжается, в дальнейшем предполагается существенно увеличить количество входящих в Корпус текстов и расширить их состав.

Поиск по корпусу с учетом морфологии, расстояния и грамматических признаков, предоставлен Яндексом.

Yahoo добавляет функцию поиска и другие новые функции в Yahoo Messenger

Yahoo анонсировал самую последнюю бета-версию своей службы мгновенного обмена сообщениями, сообщает searchengines.ru

Juvio запускает систему семейного поиска

На сайте Juvio запущен “дружелюбный к семье” поисковик, претендующий на безопасный поиск...

Против Google подан иск во Франции

В следующем месяце в суде состоится разбирательство иска, поданного третьей в мире по величине страховой компанией AXA против Google Inc

MSN приносит прибыль. Размеры не уточняются

MSN сообщает об очередном доходном квартале и стабильном росте выручки на 16% за прошедший год. Такая стабильность обусловлена успехом в работе с рекламой

About.com запускается вновь с возможностью поведенческого ориентирования

Информационно-справочный сайт About...

Tacoda создает AudienceMatch

Сегодняшняя сенсация - Tacoda создает поведенческую маркетинговую сеть под названием AudienceMatch, с целью конкуренции с другими крупными рекламными технологиями, такими как...