Новый поиск Meta.ua — уникальные поисковые технологии

    Каталог – это набор статических категорий, в которых сайты описаны в одной или нескольких категориях. Из описаний сайтов были сделаны смысловые векторы рубрик. Затем, выведена формула близости документа тематике. Несмотря на внешнюю сложность формулы, ее можно свести до косинуса угла между информационными векторами.

    Затем, был сделан алгоритм для определения тематики абстрактного текста. Этот алгоритм вычленяет, определяет ключевые слова – «маркеры» и определяет/назначает рубрики.

    Как разные слова могут относиться к разным тематикам:

    «Наполеон»: кино (фильм «Наполеон»), история (Наполеон Бонапарт), кулинария (торт «Наполеон»),

    «Шевченко» : наука и учеба (университет им. Шевченко), культура (писатель Шевченко), бизнес (Евгений Шевченко), спорт (футболист Андрей Шевченко),

    Чем полезна тематизированная выдача:

    В рамках 1 запроса на выдачу можно взглянуть под совершенно разными углами.

    Есть 2 статьи со схожими словами: 1 статья посвящена вопросам кулинарии, вторая — проблемам пищеварения. В этих статьях есть определенные слова-маркеры: «гастрит» — это медицина, «торт» — это кулинария. Если слов больше, маркеры могут быть в разных тематиках.

    Ну и напоследок, так как мечтой большинства разработчиков является работа в Гугле, с недавнего времени нашим сотрудникам была выдана традиционная украинская Гугля, в которой они и работают.

    Основатель Searchengines.ru. С 2005 по 2014 год работал генеральным директором компании "Яндекс.Украина". Основатель и директор крупнейшего коворкинга Одессы — "Терминал 42". Ведет блог, участвует в подкастах. Больше ничего не умеет.