Затем, был сделан алгоритм для определения тематики абстрактного текста. Этот алгоритм вычленяет, определяет ключевые слова – «маркеры» и определяет/назначает рубрики.
Как разные слова могут относиться к разным тематикам:
«Наполеон»: кино (фильм «Наполеон»), история (Наполеон Бонапарт), кулинария (торт «Наполеон»),
«Шевченко» : наука и учеба (университет им. Шевченко), культура (писатель Шевченко), бизнес (Евгений Шевченко), спорт (футболист Андрей Шевченко),
Чем полезна тематизированная выдача:
В рамках 1 запроса на выдачу можно взглянуть под совершенно разными углами.
Есть 2 статьи со схожими словами: 1 статья посвящена вопросам кулинарии, вторая - проблемам пищеварения. В этих статьях есть определенные слова-маркеры: «гастрит» - это медицина, «торт» - это кулинария. Если слов больше, маркеры могут быть в разных тематиках.
Ну и напоследок, так как мечтой большинства разработчиков является работа в Гугле, с недавнего времени нашим сотрудникам была выдана традиционная украинская Гугля, в которой они и работают.