Отмывание контента в социальных сетях

Создателям любой успешной социальной сети приходится ограждать пользователя от неуместного контента. Чем больше людей охватывает сервис, чем активнее они делятся друг с другом фото и видео, тем выше вероятность того, что среди выложенных материалов попадется нечто, выходящее за рамки закона или приличий. Спамеры для своей деятельности тоже выбирают самые популярные соцсети с большой аудиторией.

О том, что разумная модерация необходима, пишут много и часто; однако крайне редко говорят, как именно это происходит. Менеджер проекта Мой Мир Елена Платонова рассказала нам о том, как сдерживается поток нежелательного контента и натиск спамеров. Наверняка большая часть социальных сетей использует в своей работе похожие алгоритмы.

Шаг 1: модерация с весовыми категориями

Классическая мера борьбы со спамом, экстремизмом и эротикой в открытом доступе – модерация с привлечением пользователей. Любой человек, который видит материалы сомнительного содержания, может нажать на кнопку «пожаловаться». Все жалобы поступают к модераторам из числа сотрудников компании, которые и решают, были ли нарушены правила в каждом конкретном случае. Модераторы работают круглосуточно и без выходных, так что тех, кто выложил экстремистские призывы в ночь с пятницы на субботу и понадеялся, что это пройдет незамеченным, ждет разочарование.

Жалобы, естественно, могут быть и ошибочными. Так, например, за период с 1 февраля по 13 июня 2012 года модераторы Моего Мира обработали 883 631 жалобу на фото, из них около 43% были признаны необоснованными.

Действия по жалобам на фотографии (01 .02 – 13. 06. 2012)

Другие действия включают в себя удаление снимка из топов, блокировку альбома и пересылку фото контролеру

При таких объемах стандартный метод модерации потребовал дополнений. Таким дополнением стала система ранжирования. Во-первых, чем больше жалоб поступает на тот или иной материал, тем выше приоритет: самыми назойливыми спамерами модератор займется в первую очередь. Во-вторых, если от пользователя и раньше поступали подтвердившиеся сообщения о нежелательном контенте, его жалобы имеют больший вес. Соответственно, сообщения от пользователя, который использует жалобную кнопку для мести товарищам, попадают в конец очереди.

Шаг 2: отцы и дети – где граница?

Нужно отметить, что модераторы удаляют не все материалы, размещенные с нарушением правил; в некоторых случаях достаточно бывает изменить тему снимка или видео (за тот же период с 1 февраля по 13 июня в категорию «эротика» были перемещены около 42% фото и 23% видео, на которые поступили жалобы).

Аккаунт – это, в какой-то мере, продолжение личного пространства, и руководство соцсети придерживается той точки зрения, что пользователи имеют полное право размещать эротику (но не порнографию) в личных альбомах – при условии, что заявлена соответствующая тема. Материалы по теме «эротика» доступны только посетителям, подтвердившим, что им уже исполнилось 18 лет.

Кстати, для того, чтобы оградить несовершеннолетних пользователей от нежелательного влияния, в социальной сети отключена возможность поиска по возрасту ниже 16 лет. Лазейки для педофилов закрыты: в Mail.Ru Агенте, который тесно интегрирован с Моим Миром, поиск лиц младше 16 лет также невозможен. В дополнение к этому закрыт поиск по нескольким сотням ключевых слов соответствующей тематики.

Шаг 3: формирование спам-базы

Широкие возможности социальных сетей в плане общения и размещения контента, как это ни печально, в какой-то мере на руку спамерам. Одна из особенностей соцсетей заключается в том, что спамеры могут доставить пользователям рекламные ссылки не только в личных сообщениях (как это происходит в почте), но и другими способами: в статусе, на фото, аватаре, имени пользователя, теге.

Для борьбы с такой изобретательностью к Моему Миру подключили антиспам-систему. Эта же система применяется в Почте и других проектах Mail.Ru Group. Соответственно, для проверки она использует единую базу сигнату𠬬¬– характерных признаков каждой из спам-атак. К примеру, если картинку, размещенную в Моем Мире, удалили как спам, то письмо с такой картинкой в Почте задержат спам-фильтры.

База сигнатур наполняется в том числе и благодаря сообщениям пользователей. Контент, на который поступила жалоба, проходит проверку антиспам-системой. Если в базе сигнатур не нашлось соответствия, потенциальный спам проверяется по специальным алгоритмам. Контент, признанный подозрительным, поступает к аналитику, и тот создает новую сигнатуру. С этого момента все попытки выложить спам-картинку или сообщение с этой сигнатурой будут блокироваться. Кроме того, в социальной сети производится постпроверка, в ходе которой все размещенные ранее сообщения, статусы и фото, содержащие эту сигнатуру, зачищаются.

В попытках обойти систему, спамеры в социальных сетях часто прибегают к искажению текста ¬– например, используют в русских текстах латинские, греческие буквы или даже иероглифы и служебные символы. Человек, увидев в статусе «м0лоkо», без особых проблем поймет, о чем идет речь, а вот машина будет воспринимать его как совершенно другое слово. Команда, работающая над антиспам-системой, предусмотрела это и научила систему распознавать самые разные варианты замены букв в тексте. Таким образом, если заблокировать словосочетание «продаю Гербалайф», вместе с ним в список автоматически попадут все возможные варианты написания.

Еще одна фишка умной антиспам-системы ¬– способность «считывать» текст с изображения. Благодаря этому она может находить одинаковые спам-тексты, даже если они размещены на разных картинках, и изображения с ним целыми группами.

Шаг 4: фейс-контроль без дискриминации

По мере того, как аудитория росла, команде Моего Мира пришлось задуматься о том, чтобы к модерации постфактум добавить превентивные меры. Эффективнее было не разгребать накопившиеся жалобы, а изначально не допускать нарушителей в сеть, или хотя бы максимально усложнить им жизнь. С этими целями год назад была введена верификация аккаунта по номеру телефона. Пользователи, которые не прошли верификацию, отмечаются флажком и изначально сильно ограничиваются в правах. На один телефонный номер можно зарегистрировать не больше 5 страниц. Для добросовестных пользователей такое ограничение не критично, и в то же время оставляет им возможность зарегистрировать на свой номер, например, страничку для бабушки или аккаунты для детей.

Если на аккаунт поступает большое количество жалоб, ему полагается такой же красный флажок, как и неверифицированному. В случаях, когда активность пользователя попадает в категорию развратных действий в отношении несовершеннолетних или пропаганды таких действий, флажком дело не ограничивается – в ход идет тяжелая артиллерия, и сигнал об этом передается контролеру.

Для таких пользователей предусмотрен дополнительный комплекс мер. Здесь и подключаются в полной мере все возможности, которые дает верификация: контролер блокирует все аккаунты, которые были зарегистрированы на скомпрометированный номер. Затем, он проходится с рейдом по друзьям заблокированных аккаунтов: подавляющее большинство из них также не обходится без нарушений.

Введение верификации сразу резко снизило градус неадеквата, при этом право на сохранение определенной анонимности осталось за пользователями. Уменьшение объема нежелательного контента стало явным сигналом того, что шаги были сделаны в правильном направлении: приток пользователей не уменьшился, но Мой Мир стал гораздо чище.

Шаг 4: экспресс-уборка

Помимо перечисленных основных методов борьбы, существуют еще и дополнительные. Они дают эффект, но, к сожалению, работаю недолго. Со временем спамеры адаптируются и находят способ обойти фильтры и ограничения, однако к этому моменту в Моем Мире уже изобретают новые меры.

На графике заметен эффект от очередного мероприятия – перенастройки спам-фильтра, которая была сделана в конце марта: число жалоб от пользователей резко снизилось.

Детали менеджер проекта Мой Мир, конечно, не раскрыла, чтобы не подсказывать спамерам, как обойти фильтр. Но, как говорится, результат на лицо.

Противостояние модераторов и спамеров, похоже, так же вечно, как борьба добра со злом. Приятно видеть, что в последнее время перевес находится на стороне модераторов: ведь выигрывают от этого, в первую очередь, реальные пользователи социальных сетей.

Наличие модерации – это форма поддержания порядка в социальных сетях, соблюдение прав пользователей и защита от неуместного контента. Отмывание контента – одна из важнейших задач любой социальной сети, которая также важна, как и создание особой атмосферы, располагающей к приятному общению.

Журналист, новостной редактор, работает на сайте с 2009 года. Специализация: интернет-маркетинг, SEO, поисковые системы, обзоры профильных мероприятий, отраслевые новости рунета. Языки: румынский, испанский. Кредо: Арфы нет, возьмите бубен.