Google: Будьте осторожны с пользовательским контентом

Вчера, 13 декабря, состоялась видеовстреча с представителями Google, посвященная качеству поиска. На вопросы вебмастеров отвечали специалисты команды качества поиска Google — Владимир Офицеров (из Маунтин-Вью, Калифорния), Андрей Липатцев (из Дублина, Ирландия) и Мария Моева (из Цюриха, Швейцария).

Приводим расшифровку сессии вопросов-ответов.

Вопрос: — Какие результаты показывает Google.kz? Выдает ли результаты Google.ru, или же результаты формируются специально для Казахстана? И где находится дата-центр Google в Казахстане?

Владимир Офицеров: – Сразу скажу, что дата-центра в Казахстане нет, ближайший к вам дата-центр находится в Европе. Что же касается выдачи Google.kz, то реально — индекс у нас один. Все документы находятся в одном индексе, включая даже картинки. Выдача формируется оптимально для каждого языка. Например, мы знаем, что в Казахстане люди говорят в основном на казахском и на русском, поэтому результаты комбинируются в зависимости от выбранного языка интерфейса.

Есть два фактора – страна, из которой приходят пользователи, и язык. Так, например, на французском говорят во Франции, в Канаде и еще в нескольких африканских странах, а на русском – где только не говорят, даже в Калифорнии. Поэтому, в зависимости от страны проживания и от языка, выбранного в интерфейсе пользователя, выдаются результаты, сложенные таким образом, чтобы наиболее оптимально отвечать среднему пользователю.

Вопрос: — А персонализированный поиск учитывает какие-то настройки конкретного пользователя по языкам и всему остальному?

Владимир Офицеров: — Есть настройки, которые вы можете поменять в установках поиска, и если вы укажете языки, которые понимаете, то тогда поиск да, станет для вас персональным, но автоматически это не делается.

Вопрос:— Учитываются ли ссылки с заполненных профилей с активной ссылкой, при условии, что профиль доступен для просмотра только после регистрации? Или ссылки, доступные для просмотра только после регистрации, не учитываются?

Владимир Офицеров: – С профилями вообще, а особенно с профилями на форумах и блогах, нужно быть осторожными. Мы всегда придерживались такой политики, что если вы позволяете другим людям публиковать на своем сайте свободно какой-либо контент – в виде форума, профиля, коментариев или какой-то другой информации – пожалуйста, модерируйте. Потому что такого рода лазейки достаточно легко взламываются роботами, и ваш сайт наполняется таким контентом, при виде которого вы сами удивитесь.

К примеру, есть сайт – хороший сайт. Но у него есть форум, профайлы в котором сильно заспамлены. Складывается такая ситуация, что хороший сайт приходится пенализировать потому, что информация, которая с него идет – спамная. Если вы хотите, чтобы на вашем сайте оставалась возможность размещения свободного контента любыми пользователями, то наша основная рекомендация — модерируйте. Если у вас нет возможности модерировать, сделайте так, чтобы линки были закрыты в nofollow.

А если это нормальный чистый форум, с нормальными линками, то, конечно, это учитывается. Что же касается того, видны ли они с логином или без логина, самый простой способ проверить – это воспользоваться специальным инструментом в Webmaster Tools. При помощи этого инструмента можно посмотреть на страницы своего сайта глазами робота, можно понять, видит он линки или нет. Если он их видит – то, естественно, эти линки будут учитываться, если не видит – то нет.

Андрей Липатцев: — Резюме: будьте бдительны с пользовательским контентом!

Вопрос: — Учитываются ли Google отзывы о компании, не содержащие активных и текстовых ссылок? Имеет ли значение тип отзывов – положительный или отрицательный?

Владимир Офицеров: — Как бы мы не стремились сделать нашу поисковую машину умнее, подобного рода вещи пока остаются для нее достаточно сложными – инженерно и технически. На текущий момент прямого учитывания нет. Но были проведены интересные исследования на этот счет при помощи Твиттера. Достаточно просто сделать так, чтобы у людей постоянно было перед глазами название компании, чтобы они чаще начали искать информацию об этой компании в поиске и в Твиттере. Никакого прямого воздействия на Google это не оказывает, но оказывает некое косвенное воздействие на популярность компании среди пользователей, которые рано или поздно придут в поиск и будут искать о ней информацию.

Резюме: — Напрямую это никак не используется, но косвенно – имеет влияние.

Вопрос: — Касательно призывов к модерации. Вы, конечно, можете к этому призывать, но модерировать такие огромные объемы никто не будет. Просто будут ссылки все закрыты в nofollow по дефолту, вот и все.

Что касается вообще ссылок из аккаунтов, то все зависит от того, какой информацией наполнен этот самый аккаунт, и в каком месте проставлена ссылка. Потому что я не вижу разницы между аккаунтом форума и постом форума с точки зрения уместности ссылки, ее ценности для посетителя и всего такого прочего. Если аккаунт полон полезной информации, и там стоит ссылка автора на свой собственный блог или сайт, где освещаются вопросы, лежащие в одном ключе с тематикой форума, то, естественно, такая ссылка может быть открытой, и никаких проблем с ней не возникнет.

Другое дело – массовый спам, в основном это спам по аккаунтам. Понятное дело, что вебмастера, если им грозят какие либо санкции со стороны поисковой системы, будут это дело по дефолту закрывать в nofollow. Это будет касаться и комментариев, и отзывов и всего остального, где только может быть размещен пользовательский контент, допускающий какое-либо html-форматирование.

Андрей Липатцев: — То есть, опасение такое, что за счет возможности получения санкций за спамные ссылки, хозяева ресурсов, где возможно размещение пользовательского контента, будут все закрывать тегом nofollow, и к чему это приведет.

Владимир Офицеров: — Не желательно, конечно это делать. Среди пользовательского контента, на форумах, есть масса полезного контента для пользователей. И те ссылки, которые есть среди этого полезного контента – достаточно ценны для того, чтобы мы могли вовремя найти и проиндексировать хороший контент.

Закрывать все в nofollow – это все равно, что выплеснуть ребенка вместе с водой из ванной. Безусловно, есть много мусорного контента, но среди него есть много ценных ресурсов, и мы строим свой алгоритм так, чтобы отфильтровывать мусор и оставлять только те ссылки, которые полезны. Я думаю, что вебмастера тоже могли бы помочь нам в этом плане.

Вопрос: — Мы говорим о том же. Источник контента, который мог бы давать реальные, качественные ссылки, и влиять на правильное ранжирование сайта, будет по дефолту закрыт в nofollow. И виной этому неправильная политика Google, потому что невозможно модерировать все.

Почему бы Google просто самому не перестать учитывать эти плохие ссылки, чтобы никаких отрицательных последствий для владельца сайта это не влекло?

Владимир Офицеров: — А это и не несет никаких отрицательных последствий для владельцев сайтов. Мы делаем все для того, чтобы отфильтровывать спамные ссылки, и никакого воздействия на источник этих ссылок это не оказывает.

Иногда, к сожалению, при помощи подобного рода ссылок можно создать негативную оптимизацию для сайтов, на которые они ссылаются – по назначению. Недавно в Webmaster Tools появился инструмент, при помощи которого можно указать Google, какие ссылки на ваш сайт не нужно учитывать. Это сделано, для того, чтобы предотвратить ситуацию, когда кто-то, используя форумы и поисковый спам пытается пенализировать положение того или иного сайта в поисковой выдаче.

Вопрос: — По поводу этого инструмента, опять-таки, отдельный вопрос. Та позиция, которую занял Google в использовании этого инструмента, что вебмастер перед подачей этих ссылок, должен сам там чего-то удалять, сам пробовать и напрягаться, а иначе ничего во внимание приниматься не будет, это один из в высшей степени непонятных моментов.

Андрей Липатцев: — Все, о чем тут говорилось, касаемо каких-то требуемых от вебмастера действий, относится к повторной проверке после принятия мер вручную. Меры вручную применяются тогда, когда было обнаружено, что сайт преднамеренно участвует в схемах обмена или покупки ссылок.

Если было установлено, что со стороны вебмастера было намерение обмануть поисковую систему, используя способы, противоречащие рекомендациям по обеспечению качества, совершенно логично предложить вебмастеру продемонстрировать, что это намерение изменилось.

Если же речь идет о заспамленных ссылках с форумов, или ссылках, проставленных конкурентами на каких-то мифических каталогах, если меры вручную к сайту не принимались, то ни о каких дополнительных действиях со стороны вебмастера речь не идет. Если вебмастер обнаружил на своем сайте входящие ссылки такого рода, он может со спокойной совестью вносить их в инструмент для удаления ссылок и отправлять этот файл на обработку.

Наши требования к вебмастеру с целью предпринять какие-то шаги, связаны с тем, что он до этого совершенно осознанно предпринимал какие-то действия обратного характера.

Вопрос: — Откуда вы знаете, чьими стараниями появились эти ссылки – стараниями конкурентов или вебмастеров? И где гарантия, что команда по борьбе со спамом не предпримет ручных действий?

Андрей Липатцев: — Гарантия заключается в том процессе, который команда по борьбе со спамом употребляет. Для этого также существует процесс обратной связи. Для этого существуют запросы на повторную проверку, где можно очень четко и подробно изложить ситуацию.

Вопрос: — Существуют ли различия в факторах ранжирования сайтов в зависимости от страны? Например, в России для топовых позиций нужны ссылки с хороших тематических сайтов, а в США для топовых позиций в SERP наиболее важно обсуждение сайта в социальных сетях, а в Италии важно что-то третье…

Владимир Офицеров: — Безусловно, существует разница ранжирования в каждой стране. Как я уже сказал, у нас индекс один, и формула ранжирования одна. Единственное, что в формуле ранжирования есть параметры, которые связаны с тем, из какой страны приходит пользователь и на каком языке он говорит. И эти факторы учитываются при сборке результатов для пользователя. Поэтому когда мы пытаемся собрать наиболее оптимальную выдачу для пользователя в этой стране, то учитывается язык интерфейса, язык запроса и среднее соотношение пользователей, которые говорят на этом языке в этой стране.

Большую роль, естественно, играет сам сайт. Сайты, которые созданы на языке этого пользователя и в его стране, получают предпочтение перед сайтами, которые не имеют к этому отношения, даже если они на том же самом языке.

Вторая часть вопроса, касающаяся различия факторов, влияющих на топовые позиции – поисковая машина не умеет различать такие вещи.

Вопрос: — В марте 2011 года многие пользователи интернета могли получить доступ к конфиденциальным документам Яндекса, как такое могло получиться? Хотелось бы понять, почему Яндекс не мог защититься от такого вторжения?

Владимир Офицеров: — Конфиденциальную и частную информацию мы воспринимаем очень серьезно. Google получает массу заявок на удаление частной информации, и мы все их рассматриваем в течение 24 часов. А технически эту проблему можно объяснить тем, что вся подобная информация защищается файерволом, которым управляют люди, а люди не безгрешны. Скорее всего, была просто допущена какая-то ошибка, и наш краулер получил доступ к этой информации.

Вопрос: — У меня вопрос по поиску. От чего зависит число, которое Google указывает как количество найденных результатов по запросу? Почему для некоторых запросов на первой странице указано несколько миллионов результатов, а при переходе ко второй странице, количество найденных результатов резко снижается до нескольких сотен? Какой же результат верен?

Владимир Офицеров: – Самый правильный результат тот, который показывается на последней странице с выключенными дубликатами.

Вопрос: — Есть ли инструмент, позволяющий просмотреть все страницы, которые были проиндексированы поисковым ботом? Я хочу знать, какие мои страницы Google посчитал качественными и проиндексировал, а какие — нет.

Владимир Офицеров: – Да, очень многие люди нас об этом спрашивают. Но поисковая машина не сделана для того, чтобы доставлять результаты с какого-то конкретного сайта. Нужно понимать, что поисковый индекс ограничен не только в плане документов, но и в плане запросов, которые можно туда посылать. Это техническая проблема, пока это невозможно. Но с другой стороны, у нас есть Webmaster Tools, где написано, сколько страниц проиндексировано и сколько нет. Я понимаю, что там просто предоставляется количество, но не видно все страницы.

Мария Моева: — Кстати, очень много вебмастеров спрашивают об этом и просят введения именно такой функциональности. Я думаю, что инженеры Google скоро разработают фичу, которая позволит смотреть примеры таких страниц – примеры проиндексированных страниц, примеры только просканированных страниц, и тех, которые не вошли в индекс.

Вопрос: — Можно ли показывать нам непроиндексированные страницы? Ведь для того, чтобы их улучшить, мы должны их видеть, чтобы понять, что в них не так.

Владимир Офицеров: — Безусловно, мы хотим это сделать, но вопрос в том, подходит ли для этого поисковая машина. А ту функциональность, о которой говорит Мария, в Webmaster Tools довольно тривиально добавить. И, я думаю, что если таких запросов будет много, мы ее поставим.

Вебмастеры: — Да таких запросов – море! Мы постоянно об этом просим.

Андрей Липатцев: — Да, но вы учтите, что это просьбы только российских вебмастеров, а существует целый ряд каналов, которые влияют на решения инженеров Google. И чем больше люди будут говорить об этой проблеме повсеместно, тем выше будет приоритет этой задачи.

Вопрос: — Хорошо, кому написать, чтобы донести это до вашего руководства, чтобы этим вопросом занялись?

Мария Моева: — Я донесу. Я каждую неделю провожу видеовстречи с инженерами, которые работают над инструментами для вебмастеров, и я им это рассказываю каждую неделю. Они в курсе этого вопроса.

Вопрос: — Стоит ли ожидать в ближайшем будущем каких либо подвижек в плане улучшения определения авторства текстов и сайтов? А то очень обидно, когда ворую сайт целиком, а кара потом наступает для обоих.

Владимир Офицеров: — Да, это очень сложная проблема – определение авторства контента в интернете. Мы делаем все, что возможно в этом плане. Если посмотреть на ашмановских метриках, то Google, как поисковая машина, ранжирует оригинальный контент лучше всех. С другой стороны, я понимаю, что этого недостаточно.

Год назад была введена функциональность, позволяющая привязать автора к контенту при помощи Google+ аккаунта, и вообще любого аккаунта в сети при помощи тегов rel="author" и rel="me". Можно со своего аккаунта в Google+ поставить ссылку на свой сайт, а с сайта – обратно на Google+ аккаунт. Эта двусторонняя идентификация позволяет нам понять, кто является автором контента, а фотография автора будет показываться рядом с контентом в поисковых результатах.

С блогами ситуация обстоит намного лучше, в поиске по блогам есть пинги, которые позволяют нам безошибочно определять авторство контента.

Вопрос: — Почему нельзя сделать такие пинги для каждого сайта?

Владимир Офицеров: — Мы можем сделать пинг для вашего сайта, но поскольку за этим пингом не стоит никакой идентификации, где гарантия – что пинговать будете именно вы, а не какой-нибудь вор? На самом деле это очень сложная проблема, но мы идем к ее решению постепенно.

Совет: когда вы публикуете контент в интернете, и он распространяется через RSS-фиды, вставляйте в него линки на свой сайт. Если кто-то ворует контент, делая это специально, то они, естественно, уберут линки, а если это делается не специально – например, агрегируются фиды с нескольких блогов или нескольких сайтов, или если неопытные воры, то наличие обратного линка на ваш сайт повышает вашу ссылочную массу. И когда поисковая машина будет пытаться выбирать из этих страниц оригинальную, то она выберет ту, на которую больше линков, у которой выше PR, и есть большой шанс, что выбрана будет именно ваша страница. Поэтому воровство контента даже будет вам на руку.

Вопрос: — Обратная сторона медали заключается в том, что если подобная ссылка будет давать профит сайту, то тогда у владельцев этих сайтов появится стимул для статейного продвижения своих сайтов. Не боитесь, что они ради этих ссылок будут автоматом постить свои статьи по сотням и тысячам директорий?

Владимир Офицеров: — Я не сказал, что это дает преимущество в ранжировании, это дает лишь преимущество при выборе дубликата.

Вопрос: — Почему Google умудряется «скушать сайты», у которых * Disallow в robots.txt и все страницы закрыты в noindex?

Владимир Офицеров: — Скорее всего, там какая-то ошибка. Для проверки лучше всего посмотреть на Webmaster Tools на свой сайт глазами робота. Если Google индексирует эти сайты при таких запретах, то, скорее всего, директива * Disallow была прописана не там, где она должна быть прописана, и noindex не там, где он должен быть.

Вопрос: — Яндекс не индексирует фрагменты страницы заключенные в html-тег noindex, не планирует ли Google тоже начать это делать?

Владимир Офицеров: — Не смотря на то, что вебмастерам кажется, что они лучше знают, что нужно индексировать на их сайте, а что нет, мы предпочитаем, чтобы это делала поисковая машина. Мы не поддерживаем практику, когда вебмастер хочет закрыть что-то от поисковой системы и оставить это видимым для пользователей. Этого у Google нет, и в ближайшее время вряд ли будет…

Запись видеовстречи можно посмотреть здесь

Журналист, новостной редактор, работает на сайте с 2009 года. Специализация: интернет-маркетинг, SEO, поисковые системы, обзоры профильных мероприятий, отраслевые новости рунета. Языки: румынский, испанский. Кредо: Арфы нет, возьмите бубен.