По материалам статьи директора по SEO-исследованиям Go Fish Digital и эксперта по патентам Google Билла Славски (Bill Slawski).

Эта статья была написана после обсуждения отраслевых мифов и того, что может быть сделано, чтобы помочь SEO-специалистам избежать заблуждений и дезинформации о поисковых системах и SEO.

Есть несколько тем, с которым связано большое количество SEO-мифов. В статье мы рассмотрим, что в них правда, а что нет.

Понимание Google

Google – одна из самых популярных поисковых систем в мире, используемая многими компаниями в Северной Америке и Европе для привлечения трафика на сайты. Google — это одна из основных целей многих SEO-кампаний. С ним также связано множество SEO-мифов.

Поэтому оптимизаторам желательно узнать как можно больше о Google с точки зрения бизнес-аналитики. К счастью, Google предоставляет довольно много информации о себе. В этом разделе мы рассмотрим те ресурсы, которые полезно отслеживать и читать.

В первую очередь мы бы рекомендовали книгу – In The Plex (в переводе на русский язык — «Plex: как Google мыслит, работает и формирует нашу жизнь»). Эта книга была написана американским журналистом по технологиям Стивеном Леви и увидела свет в 2011 году. С её помощью вы получите хорошее представление о том, что представлял собой Google на заре своего существования.

Эта книга очеловечивает Google, а восприятие Google как бизнеса с людьми, которые пытаются сделать что-то полезное для других людей, формирует более адекватный образ компании.

Теперь Google является публичной компанией и регулярно публикует финансовые отчёты для своих акционеров, в которых часто обсуждаются цели и направления развития компании. Эти отчёты можно найти на сайте родительской компании Google – Alphabet.

В 2004 году основатели Google также написали так называемый «An Owner’s Manual for Google’s Shareholder», который стоит прочитать, чтобы понять, в каком направлении они хотят развивать компанию.

Ресурсы Google

Google активно работает над тем, чтобы предоставлять информацию о поисковой системе пользователям, а также нанимает евангелистов для работы с вебмастерами, которые делятся важными новостями и разъяснениями в таких каналах, как Twitter. Среди этих специалистов значатся John Mueller, Gary Illyes и Danny Sullivan, за аккаунтами которых стоит следить. Они активны и отвечают на возникающие вопросы о Google.

Также полезно отслеживать следующие справочные и информационные ресурсы: Think with Google, Google devs, Google AI, Blog.google, Webmasters.googleblog и AI.googleblog.com.

Кроме того, Google поддерживает справочные форумы, где сотрудники компании и волонтёры отвечают на вопросы владельцев сайтов о проблемах с их ресурсами. Форум для вебмастеров доступен по ссылке.

Команда Google Webmasters также проводит видеовстречи для вебмастеров (Office Hours), где можно задавать вопросы сотрудникам поиска напрямую. Эти встречи проводятся в режиме прямой трансляции на YouTube.

Использование всех этих ресурсов помогает лучше понимать Google.

Теперь рассмотрим непосредственно мифы.

Популярные SEO-мифы

Latent Semantic Indexing (LSI)

В конце 80-х, перед появлением интернета, исследователи из Bell Labs опубликовали научную статью и зарегистрировали патент на подход к индексированию, который идеально работал с небольшими статичными наборами данных. В патенте приводился пример данных из восьми книг и говорилось, что каждый раз, когда новая информация будет добавляться в корпус данных, проиндексированных с использованием LSI, индексация должна будет выполняться снова.

При этом интернет содержит намного больший объём информации, которая часто изменяется через добавление новых сведений, а также удаление и обновление старых.

LSI — это технология, которая была разработана до интернета и не предполагала индексирование чего-либо подобного. В некоторых патентах Google её иногда упоминают как подход к индексированию, но необязательно тот, что может использоваться для данных, индексируемых поисковой системой. Один из таких патентов — Computer information retrieval using latent semantic structure.

Google использует технологии предварительной обработки естественного языка, такие как BERT ( Pre-training of Deep Bidirectional Transformers for Language Understanding) и другие, которые готовят документы для следующих подходов, которые могут применяться в работе поисковой системы, таких как ответы на вопросы и определение настроений в документах. Компания также разработала подход, связанный со встраиванием слов, который используется в работе RankBrain.

Эти более новые подходы – это технологии, которые были разработаны с пониманием размера и природы корпуса данных в индексе интернета.

Что нужно знать о фразе «ключевые слова LSI»

Существует инструмент под названием LSI Keywords, который на самом деле не использует LSI и не генерирует ключевые слова, а скорее подбирает связанные слова, которые будут помещены на ту же страницу, что и ключевое слово, которое вы уже выбрали для этой страницы.

На странице инструмента НЕ говорится, что он использует LSI, как то, что было изобретено и запатентовано в конце 80-х годов в качестве подхода к индексированию (а не как инструмент подбора ключевых слов).

Некоторые люди понимают под «ключевыми словами LSI» добавление синонимов или семантически релевантных слов на страницу. Но LSI это совсем другое.


LSI – это процесс, который использует базовую (или скрытую) структуру страницы, чтобы понять семантику того, как слова могут быть связаны друг с другом.

Некоторые люди также считают, что  сбор похожих запросов, которые появляются внизу страницы результатов поиска, это также использование «ключевых слов LSI», но это опять же, необязательно так.

Google показал нам, что он может переписывать запросы, по которым ищут люди, чтобы показывать страницы, которые, по мнению поисковой системы, отвечают ситуативным или информационным потребностям пользователя, с контентом, который по существу означает то же самое. И это та идея, которая лежит в основе алгоритма Hummingbird.

С патентом, который объясняет, как Google может переписывать запросы, можно ознакомиться по ссылке: Synonym identification based on co-occurring terms. Однако в этом патенте ничего не говорится о том, как оптимизировать веб-страницу для Hummingbird.

TF-IDF

Как и LSI, TF-IDF – это старый метод индексирования, который был разработан до появления интернета. Он анализирует частоту использования термина в документе и частоту появления этих терминов в совокупности проиндексированных документов. Это позволяет определить, связана ли страница с определённым термином, и насколько распространённым или популярным этот термин может быть в совокупности документов.

При этом данный метод не учитывает так называемые «стоп-слова» в английском языке, часто встречающиеся в текстах, такие как «and», «or», «the» и «to».

Этот подход к индексации, вероятно, был заменён в ранних поисковых системах более продвинутым алгоритмом, называемым BM25.  В патентах Google есть упоминания о TF-IDF как одной из частей процесса определения похожих запросов, которые отображаются внизу результатов поиска в Google. Но мы не встречали упоминаний о TF-IDF как части того, как индексируются страницы в интернете.

TrustRank

Упоминания о концепции TrustRank впервые появились в совместной статье исследователей из Yahoo и Стэнфордского университета «Борьба с веб-спамом с помощью TrustRank» (Combating Web Spam with TrustRank). Целью процесса, описанного в этой статье, было выявление спамных страниц в интернете.

Аннотация из статьи гласит:

«Для получения более высоких позиций в результатах поиска спамные страницы используют различные методы. Хотя эксперты могут идентифицировать спам, оценивать вручную большое количество страниц слишком затратно. Вместо этого мы предлагаем методы полуавтоматического отделения надёжных страниц от спама. Сначала мы выбираем небольшой набор начальных страниц для оценки экспертом. После того, как мы вручную идентифицируем авторитетные начальные страницы, мы используем ссылочную структуру интернета, чтобы обнаружить другие страницы, которые также могут быть хорошими.

В этой статье мы обсуждаем различные способы отбора начальных страниц и обнаружения надёжных страниц. Мы представляем результаты экспериментов, проведённых в интернете, проиндексированном AltaVista, и оцениваем эффективность своих методик. Полученные нами результаты показывают, что мы можем эффективно отфильтровывать спам из значительной части интернета на основе качественного начального набора из менее чем 200 сайтов».

Недопонимания

Так как статья о TrustRank была впервые опубликована на сайте Стэнфордского университета, многие люди связали её с Google, поскольку он был основан студентами и исследователями из Стэнфорда. Но на самом деле этой связи нет.

Google упоминал «trust» как нечто, что может учитываться при ранжировании страниц, но ничего похожего на TrustRank в Yahoo в работе поисковой системы не используется.

TrustRank не занимается ранжированием страниц в интернете, хотя некоторые специалисты утверждают, что это подход к ранжированию, используемый для ранжирования контента в результатах поиска.

Достаточно прочитать аннотацию к вышеупомянутой статье или всю статью целиком, чтобы понять, что никаких оснований для этих утверждений  о роли TrustRank в ней нет.

Google разработал подход, основанный на том, как люди создают системы пользовательского поиска Google и выбирают и аннотируют конкретные сайты в контекстных файлах для этих пользовательских систем в качестве ресурсов поисковых систем, чтобы эти страницы и сайты учитывались как экспертные в тем темах, которые охватывают поисковые системы.

Этот подход сильно отличается от разработанного Yahoo TrustRank. На нашем сайте мы назвали его «TrustRank по версии Google» и попытались объяснить, как сильно он отличается от того, что придумали и запатентовали в Yahoo (удерживая таким образом Google от копирования их метода фильтрации спама из результатов поиска).

Google также объясняет в Руководстве для асессоров, что он хочет, чтобы асессоры оценивали веб-страницы на основании концепции «E-A-T» (Expertise, Authoritativeness и Trustworthiness).

По словам вице-президента Google по поиску Бена Гомеса (Ben Gomes), Руководство для асессоров позволяет понять, в каком направлении компания хочет развивать свой алгоритм:

«Вы можете рассматривать рекомендации для асессоров как то, куда мы хотим, чтобы двигался наш алгоритм. Они не говорят вам, как алгоритм ранжирует результаты поиска, но они показывают, что он должен делать».

Таким образом, «trustworthiness» в Руководстве для асессоров не имеет ничего общего с TrustRank или ранжированием веб-страниц, но Google хотел бы видеть в своих результатах поиска те страницы, которые пользователи будут воспринимать как заслуживающие доверия.

Если кто-то говорит вам, что Google использует TrustRank для ранжирования страниц (как TrustRank, разработанный Yahoo), то вас вводят в заблуждение по нескольким пунктам:

  • TrustRank не ранжирует веб-страницы;
  • Основанный на доверии подход, запатентованный Google, не имеет ничего общего с TrustRank, созданным Yahoo.
  • Google упоминает «trustworthiness» в Руководстве для асессоров, но это опять же никак не связано с TrustRank, поэтому этот аргумент лишён оснований.

Будьте осторожны с тем, что вы читаете о TrustRank. Некоторые статьи на эту тему содержат проверяемые факты вперемешку с поспешными обобщениями (у Google есть патент по Trust…) и совершенно не обоснованными доказательствами (в Руководстве для асессоров Google упоминается «trustworthiness»), чтобы подкрепить утверждение о том, что Google использует что-то вроде Yahoo TrustRank для ранжирования страниц. Эти нестыковки в приводимых аргументах и делают их SEO-мифами.

RankBrain

Google имеет долгую историю разработки подходов к переписыванию запросов (в прошлом они называли их «Расширяющиеся запросы») – начиная по меньшей мере с 2003 года, даты самого старого найденного нами патента об использовании синонимов запросов (Search queries  improved based on query semantic information). Google видоизменяет запросы, находя термины, которые могут быть заменой или синонимами терминов в исходных запросах.

Запуск алгоритма Hummingbird в 2013 году показал нам, как Google может переписывать запросы.

В 2015 году Google представил новый алгоритм под названием RankBrain. Это было сделано посредством интервью Bloomberg News с одним из специалистов команды Google Brain, которая разработала RankBrain Update.

В этом интервью сотрудник Google рассказал, что RankBrain – это подход к переписыванию запросов, основанный на технологии Word Vector, созданной командой Google Brain. Нам также удалось найти патент, из которого можно подробнее узнать о Word Vector. Об этом патенте можно прочитать в нашей статье Citations behind the Google Brain Word Vectors Approach.

Google опубликовал по меньшей мере один патент о подходе к переписыванию запросов, в котором в качестве изобретателя упоминается сотрудник команды Google Brain. Этот патент использует большое количество данных из истории поиска и веб-страниц и называется Using concepts as contexts for query term substitutions.

Мы не можем утверждать, что этот патент является тем, на основе которого создан RankBrain, но в нём достаточно данных для того, чтобы предполагать такой вариант.

Как нам было сказано Google, RankBrain направлен на уменьшение неоднозначности в запросах.

Можно ли проводить оптимизацию для RankBrain?

По словам сотрудников Google, веб-страницы нельзя оптимизировать для RankBrain. Так как RankBrain работает над переписыванием запросов, это кажется вполне логичным. Однако есть люди, которые в своих статьях описывают подходы, с помощью которых, как они утверждают, можно оптимизировать страницы для RankBrain и улучшить их ранжирование.

Некоторые статьи об оптимизации страниц для RankBrain содержат рекомендации по улучшению качества контента на страницах, увеличению времени, которое пользователи проводят на этих страницах и повышению вероятности того, что пользователь выберет одну из этих страниц, когда увидит её в результатах поиска. Это полезные вещи, но это не оптимизация страницы для RankBrain. И поэтому такие заявления вводят в заблуждение, что также делает их SEO-мифами.

Все эти вещи не оптимизируют ваши страницы для подхода, который заключается в переформулировании запросов, и известного как RankBrain. И если кто-то говорит вам, что это не так, проверьте, на чём основаны их утверждения об обратном.

Вместо заключения: мифы, эксперты и гуру

В интернете есть много информации и дезинформации о многих вещах, включая создание сайтов и их оптимизацию для поисковых систем. Будьте осторожны в отношении SEO-мифов.

В отрасли также есть люди, которые называют себя экспертами или гуру. Такие утверждения тоже стоит воспринимать с известной долей скепсиса.

Когда вы читаете о том, как оптимизировать страницы или о том, что может быть фактором ранжирования, внимательно изучите аргументы, которые используются для обоснования этих утверждений.

Если авторы статей высказывают мнения, не подкреплённые фактическими данными, признают ли они это? Предоставили ли они информацию, подтверждающую знания и опыт, которые позволяют им делать такие заявления? На это также важно обращать внимание.

Если вы читаете о SEO, чтобы узнать о каких-то вещах, которые можно протестировать самостоятельно, а автор статьи делает на этом акцент и предлагает то, над чем можно подумать и что можно проверить, то такие статьи можно считать ценными.

Если вы пишете о SEO, подкрепляете ли вы свои выводы фактами, документами, ссылками или же просто предлагаете ничем не обоснованные предположения и пространные обобщения? Вот это то, над чем точно стоит задуматься.

ИСТОЧНИКБлог SEMRush
Редактор-переводчик. Специализируется на западном интернет-маркетинге и SEO. Освещает события в этой области с 2014 года.

5
Прокомментировать

avatar
2 Цепочка комментария
3 Ответы по цепочке
4 Последователи
 
Популярнейший комментарий
Цепочка актуального комментария
4 Авторы комментариев
Nadezhda MosyaginaShurasАлексейСтас Авторы недавних комментариев
  Подписаться  
новее старее большинство голосов
Уведомление о
Nadezhda Mosyagina
Участник
Nadezhda Mosyagina

Как-то сомнительно читать лонгрид, который в начале советует книгу 8летней давности. Все алгоритмы с тех пор изменились десятки раз.

Алексей
Гость
Алексей

А вы бы как в тему заходили, с плеча рубили бы?)
О книге только в начале описывается в двух словах как база, без всяких мифов. И это реально полезно для общего понимания. Дальше лонгрид очень даже полезен, Надежда.

Nadezhda Mosyagina
Участник
Nadezhda Mosyagina

По мне так лучше не указывать отсылку вообще, чем указывать морально устаревшие источники.
Ну, а мысль о том, что всю информацию, найденную в интернете, надо проверять перед использованием, прямо скажу — так себе открытие.

Shuras
Гость

С одной стороны согласен, но если автор книги довольно авторитетный я обычно ищу свежие переизданные.

Стас
Гость
Стас

Да, что-то Билл воды налил. А вроде грамотный дяденька…