Руководитель Bing Index Quality рассказал о способах выявления и фильтрации спама в Bing

0

Игорь Рондел (Igor Rondel), руководитель подразделения по разработке программного обеспечения в Bing Index Quality, рассказал о выявлении и фильтрации спама в поисковой системе Bing. 

Что такое веб-спам по мнению Bing?

«Мы считаем страницу спамом, если ее владелец использует методы «черного» SEO, чтобы «перехитрить» поисковый алгоритм и получить незаслуженно высокие позиции для сайта. В действительности, не все так просто: а) между легитимным использованием техник оптимизации и злоупотреблением – тонкая грань; б) если было замечено злоупотребление техниками SEO, часто непонятно, было оно намеренным или случайным; в) даже вопиющие спам-страницы могут обладать ценностью для пользователей», — объяснил руководитель.

В контексте проблемы выявления и фильтрации спама, Рондел обозначил основные цели поисковой системы Bing:

  • Обеспечивать удовлетворенность пользователей, предоставляя качественные результаты поиска. Спам-результаты обычно низкого качества и понижают хорошие результаты в выдаче, занимая незаслуженно высокие позиции.
  • Способствовать уменьшению количества вредоносного контента.
  • Обеспечивать улучшение экосистемы интернета.  «Если Bing, Google и другие поисковые системы будут способны исключить спам из результатов поиска, это резко сократит трафик на спам-сайты и приведет к их уходу из бизнеса. В результате, вся экосистема интернета будет чище и безопаснее для пользователей», — отметил Рондел.
  • Оптимизировать использование ресурсов Bing. Пространство индекса не является ни свободным, ни неограниченным. Выявление и удаление спам-сайтов из индекса предоставит больше места для качественных страниц.

Как Bing выявляет спам?

Согласно Ронделу, первый шаг: понять мотивацию спамера. «Спам – это бизнес. Основная цель спамера – заработать деньги. Здесь возможны исключения в виде политики и общего хаоса, но большинство спамеров хотят монетизировать свои усилия», — отметил Рондел. Ведущий способ трансляции спама для заработка – посредством рекламных объявлений (включая партнерские программы). Чем больше объявлений увидят пользователи, тем больше денег заработает спамер.

Сама веб-страница, по мнению руководителя по разработке программ Bing Index Quality, часто является отражением мотивации спамера. Разработчики используют это понимание для развития алгоритмов, направленных на автоматизацию определения спама путем обращения внимания на:

  • Качество контента. Спамеры генерируют контент, нацеленный на поисковые системы и их алгоритмы, в то время как легитимные оптимизаторы – на пользователей. В результате, контент большинства спам-страниц некачественный и имеет ограниченную ценность для пользователей. Bing использует этот факт для определения спама. Буквально сотни и тысячи сигналов используются для проведения этой оценки, начиная с простых, типа подсчета количества слов на странице, и заканчивая более сложными концепциями уникальности и полезности контента.
  • Наличие рекламных объявлений. Практически каждая страница в интернете содержит рекламу. Наличие рекламы не делает страницу плохой, не считая спам. Bing Index Quality обращает внимание на: а) количество рекламы на странице; б) ее тип (баннеры, всплывающие окна и др.), с) насколько она навязчива.
  • Информацию о позиции и расположении информации на странице. Где расположен основной контент? Где расположена реклама? Реклама занимает главное место на странице, или она отделена от основного контента (в хедере/ футере или на боковой панели)? Насколько легко отличить контент страницы от рекламы?

Следующая цель спамера – максимизация выплат. Для этого используются техники «черного» SEO и злоупотребление легитимными методами оптимизации. Конкретная цель спамера – максимизация трафика на страницы, которые приносят доход. Он может добиваться этого двумя способами: а) максимизацией присутствия таких страниц в интернете; б) максимизацией их рейтинга в поисковых системах.

Что касается максимизации присутствия, способы, которые используют спамеры с этой целью, разные: а) копирование чужого контента; б) использование программ автоматической генерации контента страниц; в) использование внешних API для популяризации страниц с неуникальным контентом.

Технология Bing Index Quality пытается выявить эти механизмы. Она также использует алгоритмы кластеризации (используя данные о расположении страницы, рекламных объявлениях, именах домена и WhoIs-данные). Они помогают выявить большие кластеры страниц/ сайтов массового производства.

Что касается стремления добиться максимально высоких позиций страницы в рейтинге, существуют десятки способов злоупотребления SEO в попытке «провести» поисковые системы и получить незаслуженный рейтинг. Например, а) наполнение страницы/url/анкоров ключевыми словами; б) манипуляция над ссылочной массой посредством ссылочных ферм, сетей, форумов и т.п.

Для борьбы с ними Bing Index Quality развивает технологии, которые ищут эти конкретные техники. Например, понимание стандарта распространения текста в интернете помогает идентифицировать подозрительные выбросы (например, страницы с большим количеством ключевых слов). Аналогичная технология может также применяться для анализа URL и анкоров. Другие – концентрируются на анализировании веб-графики (страниц, внутренних и внешних ссылок) для определения возможных манипуляций над ссылочной массой.

Как и распространители вредоносного ПО, спамеры прилагают много усилий, чтобы избежать выявления поисковыми системами, поскольку это равно потери прибыли. Техники, используемые с этой целью, включают: а) редиректы, б) клоакинг; в) использование динамического контента и др.

Что происходит, если страница определена Bing как спам? 

«Основная цель Bing Index Quality – обеспечение качества поисковых результатов. Для ее достижения, мы стараемся минимизировать присутствие спам-страниц в SERP. Конкретный механизм достижения этой цели может иметь вид понижения страницы в выдаче, нейтрализации влияния конкретных техник спама или удаление страницы/сайта из индекса. Конечное решение будет зависеть от конкретной использованной техники спама и потенциальной ценности, которую страница представляет для пользователей», — объяснил Рондел.

Bing использует комплексный подход к реализации своей цели предоставить качественные результаты поиска пользователям. В начале августа текущего года поисковая система  представила специальную страницу информации об угрозах на сайте Site Safety Page, содержащую отчёты о степени безопасности веб-сайтов. Страница будет автоматически создаваться и показываться для сайтов в результатах поиска в случае, если поисковый робот обнаружил на ресурсе вредоносное ПО, взлом и прочие угрозы.