Джон Мюллер о роли TF-IDF в алгоритме Google

Во время последней видеовстречи для вебмастеров сотрудник Google Джон Мюллер ответил на вопрос о роли TF-IDF в алгоритме Google.

Согласно Wikipedia, «TF-IDF – это статистическая мера, используемая для оценки важности слов в контексте документа, являющегося частью коллекции документов… Этот показатель используется в задачах анализа текстов и информационного поиска».

Вопрос к Мюллеру звучал так:

«Что вы думаете о ключевых словах TF-IDF? Использует ли Google аналогичный механизм? Должны ли мы использовать эту технику, чтобы улучшить свой контент?».

Мюллер ответил следующее:

«…ключевые слова TF-IDF – это показатель, который используется в информационном поиске. Что касается попыток понять, какие слова являются релевантными на странице, то мы используем множество различных методов из поиска информации. И есть много таких метрик, появившихся за эти годы».

В целом ответ Мюллера можно расценить как намёк на то, что не стоит фокусироваться на одной старой метрике, поскольку Google также использует много других метрик.

«Моя общая рекомендация здесь – не фокусироваться на этом виде искусственных метрик, поскольку вы не можете воспроизвести эту метрику напрямую, потому что она основана на общем индексе всего контента в интернете. Так что вы не можете взять эту метрику “в работу”, потому что на самом деле её у вас нет»

Далее Джон Мюллер описал лучшую альтернативу этому подходу:

«Вместе этого я бы настоятельно рекомендовал сфокусироваться на сайте и его пользователях и убедиться, что то, что вы предоставляете, в долгосрочной перспективе будет тем, что Google будет по-прежнему признавать и использовать как нечто ценное».

Он также отметил, что TF-IDF – это очень старая метрика, а современный информационный поиск более сложный и не сводится к использованию только одного показателя. При этом фокус на пользователях – это намного лучший подход, поскольку он обеспечивает иммунитет к изменениям. Главная цель Google – предоставление самых полезных результатов поиска. Если делать упор на полезный контент, то страница с большей вероятностью будет оставаться популярной и появляться в Google.

Мюллер также упомянул, что TF-IDF используется для отсева стоп-слов (в английском языке это «and», «the», «that»). Не исключено, что это единственная область применения этого показателя в алгоритме Google.

Источник: Search Engine Journal
preview Google может внести изменения в инструмент «Параметры URL» в Search Console

Google может внести изменения в инструмент «Параметры URL» в Search Console

Сотрудник Google Джон Мюллер намекнул в Twitter, что инструмент «Параметры URL», добавленный в Search Console в 2009 году, может быть не полностью перенесён в новую версию...
preview В Google Earth добавили виртуальный тур по национальным паркам США

В Google Earth добавили виртуальный тур по национальным паркам США

Каждую весну National Park Service и National Park Foundation США посвящают неделю защищённым местам страны
preview Для чего используются голосовые помощники? Исследование Microsoft

Для чего используются голосовые помощники? Исследование Microsoft

72% владельцев смартфонов пользуются голосовыми помощниками. Об этом свидетельствуют результаты исследования Microsoft. Отчёт компании основан на двух опросах
preview Партнеры Bringly смогут продавать товары на площадках друг друга

Партнеры Bringly смогут продавать товары на площадках друг друга

Маркетплейс Bringly сможет не только продавать россиянам товары зарубежных интернет-магазинов, но и позволит партнерам торговать товарами на площадках друг друга
preview Google может полностью убрать поддержку директивы noindex в robots.txt

Google может полностью убрать поддержку директивы noindex в robots.txt

Google уже многие годы говорит вебмастерам, что не поддерживает директиву noindex в файле robots.txt. Однако некоторые SEO-специалисты по-прежнему её используют
preview Google открыл доступ к AI-инструменту для анализа изображений

Google открыл доступ к AI-инструменту для анализа изображений

Google опубликовал новый инструмент, который позволяет получать развёрнутый анализ изображений, сделанный с помощью алгоритма машинного обучения