Как работает поиск Twitter в реальном времени

2

Twitter позволяет наблюдать за вещами и событиями в реальном времени. Как только что-то происходит, сотни тысяч людей по всей планете начинают в считанные секунды распространять информацию о случившемся. Вот, например, что было после крушения рейса 1549

или переизбрания Барака Обамы.

Эти события сразу же появились в Twitter и в поиске по сети микроблогов. Задача поиска по Twitter в этом случае заключается в том, чтобы представить пользователям информацию о событии как можно быстрее, при этом поисковый движок не всегда знает, что именно означают те или иные запросы, к чему они относятся. К тому же пользователи будут интересоваться этим событием буквально несколько часов, поэтому важна скорость поиска, потом поисковых запросов станет значительно меньше.

Как же Twitter добивается хороших результатов поиска? Для этих целей разработчиками сети микроблогов был создан вычислительный движок для просчета поиска в реальном времени. Движок отслеживает самые популярные в данный момент поисковые запросы. После запускается аналитическое программное обеспечение Storm, которое отслеживает статистику поисковых запросов. Как только обнаруживается популярный запрос, он отправляется модераторам, которые придумывают различные вопросы о запросе. После полученный ответ направляется саообучающейся системе, которая присваивает запросу ту или иную категорию. Например, относит его к политике или культуре. И когда в следующий раз пользователи набирают этот запрос, то им предлагаются блоги политиков, если запрос имеет политическую направленность.

Важно, что категория присваивается запросу не один раз и навсегда. Программа Storm регулярно перепроверяет принадлежность запросов к той или иной категории. Например, пользователи Twitter набирая в поиске "Клинт Иствуд", искали актера, а вот в 2012 году они имели ввиду политику.

Подобный алгоритм используется и для оценки релевантности рекламных объявлений.

Источник