Library Of Congress не оставляет идеи разработать поисковик по архиву твитов, ранее
Речь идет обо всех публичных твитах, опубликованных пользователями в сети микроблогов с момента ее создания. Стоит отметить, что ежедневно пользователи сети микроблогов создают более 500 миллионов сообщений, соответственно, архив содержит в себе огромный объем информации, и поиск просто необходим для работы с таким объемом данных.
Сейчас архив насчитывает более 170 миллиардов твитов. По соглашению, подписанному в апреле 2010 года, все публичные твиты будут доступны для читателей библиотеки лишь через шесть месяцев после их публикации в сети. А сама база данных будет использована для проведения некоммерческих исследований и предоставления свободного доступа читателям к этой информации.
В настоящее время, чтобы выполнить один поисковый запрос в одно слово по архиву твитов, компьютерам требуется более 24 часов. И эту ситуацию необходимо менять. Пока архив не доступен для использования, но Библиотека получила уже более 400 запросов на проведение исследований от различных научных центров по всему миру. К сожалению, разработка поиска по твитам осуществляется очень медленно, так как библиотека не располагает необходимыми для создания поиска средствами. Обработка большого объема данных требует серьезного обновления аппаратной базы и установки сотни или тысячи новых серверов в государственном учреждении. В ближайшее время архив будет доступен лишь в самой библиотеке, а судьба поиска пока еще не ясна.