Яндекс открыл доступ к части текстов Национального корпуса русского языка

Компания Яндекс сообщила об открытии доступа к скачиванию части текстов Национального корпуса русского языка со снятой омонимией размером 1 млн словоупотреблений.

Национальный корпус русского языка - крупнейшее электронное собрание текстов, включающее более 500 млн словоупотреблений. Это один из основных источников, к которому обращаются лингвисты, исследующие русский язык.

Напоминаем, этот проект был запущен 9 лет назад, в апреле 2004 года. Корпус пополняется и поддерживается силами многих организаций, среди которых Институт русского языка имени В. В. Виноградова РАН, Институт проблем передачи информации РАН, МГУ и многие другие. С самого начала Яндекс разрабатывал адаптированную для НКРЯ версию поисковой машины для поиска текстов с разного рода разметкой.

Морфологическая разметка текстов корпуса осуществляется автоматически с помощью разработанной в Яндексе программы mystem. Однако у ряда текстов вручную «снята омонимия», то есть для каждого слова указаны его правильная словарная форма и грамматические характеристики. Для многих компьютерных лингвистов эта часть корпуса представляет особый интерес, так как ее можно использовать при разработке морфологических анализаторов и для разных вычислительных экспериментов.

C 15 апреля 2013 года часть корпуса со снятой омонимией объемом около 1 млн словоупотреблений стала доступна для оффлайн-использования. Желающим получить доступ, необходимо зарегистрироваться и подписать лицензионное соглашение.

Yahoo ввела новые правила работы для родителей

После внедрения запрета на работу из дома, CEO Yahoo Марисса Мейер (Marissa Mayer), которая в недавнем времени сама стала мамой, предложила новые условия работы для сотрудников...

Google опубликовал статистику запросов от госорганов на удаление контента

В блоге Google Россия появилась новая статистика, показывающая количество государственных запросов на удаление контента из сервисов интернет-гиганта

Google Penguin исполнился год

Ровно год назад, 24 апреля, Google запустил новый алгоритм под названием Penguin. Основной целью фильтра стала борьба с «поисковым спамом»

Ростелеком на 23 минуты заблокировал Яндекс для своих абонентов

Сегодня, 23 апреля, Ростелеком заблокировал доступ к сервисам Яндекса для своих абонентов, об этом сообщается в официальном блоге российского поисковика

Google веб-мастерам о ссылках

16 апреля состоялась очередная видеовстреча с веб-мастерами на тему качества поиска Google

Поиск Mail.ru об обработке навигационных запросов в поиске

Команда Поиска Mail.ru продолжила публикацию материалов об обработке и классификации запросов в поиске