Игорь Градов
Игорь Градов
6 мин
text

Google раскрыла свой детектор спама: как блокируют целые бот-сети, а не отдельные посты

Каждый, кто ведёт канал на Дзене или модерирует комментарии на своей площадке, видит: потоки однотипного контента, написанного нейросетями, растут быстрее, чем платформы успевают их отсеивать, и в июне 2025 года исследователи Google опубликовали работу, которая впервые описывает системный подход к решению этой проблемы.

Google раскрыла свой детектор спама: как блокируют целые бот-сети, а не отдельные посты
Почему это важно

Google раскрыла конкретные алгоритмы, которыми ловит координированный ИИ-спам: анализ шаблонов текста через Sentence-BERT, быструю адаптацию классификатора через LoRA и уничтожение целых бот-сетей, а не отдельных публикаций. Для владельцев российских платформ это готовая карта методов, которые можно адаптировать к русскоязычному спаму.

Исследование опубликовано командой Google и называется Scalable Detection of Adversarial Synthetic Slop and Coordinated Media Abuse: A LoRA-Enabled Multimodal Defense System. Формально работа посвящена видеоспаму, но авторы прямо описывают текстовый детектор спама на основе тех же принципов. Суть в том, что вместо проверки каждой единицы контента по отдельности система ищет координированную структуру атаки: одинаковые смысловые шаблоны, общую инфраструктуру ботов и «генеративные артефакты», следы машинного производства, общие для десятков и сотен аккаунтов.

Что понадобится

  • Понимание трёх ключевых технологий из работы Google: Sentence-BERT, LoRA, кластерный анализ инфраструктуры (всё объясню ниже)
  • Доступ к любой площадке, где вы модерируете контент или публикуете свой (Дзен, сайт на WordPress, Telegram-канал)
  • Бесплатные инструменты для проверки текста: GPTZero, Originality.ai (платный, но с пробным периодом), Турбо-Текст или аналоги
  • Около 30 минут на первый проход по своей площадке

Пошаговая инструкция

  1. Разберитесь, как работает детектор спама Google, чтобы мыслить теми же категориями. Система S-CTS (Scalable Cluster Termination System) не оценивает один текст изолированно. Она группирует аккаунты в кластеры по общей инфраструктуре (IP, паттерны регистрации, время публикации) и проверяет, используют ли аккаунты внутри кластера одни и те же смысловые шаблоны. Если процент совпадений высок, весь кластер блокируется целиком.

  2. Научитесь видеть «семантический шаблон», главный маркер ИИ-спама. Sentence-BERT, или S-BERT, это модификация языковой модели BERT, которая превращает каждое предложение в числовой вектор (набор координат в математическом пространстве). Два предложения, написанные по одному промпту, дают почти одинаковые векторы, даже если слова подобраны разные. Исследователи Google прямо пишут, что автоматически сгенерированный текст оставляет «отчётливый математический отпечаток» в этих векторах. S-BERT существует уже семь лет, но, по данным Search Engine Journal, SEO-индустрия до сих пор почти не знала о его применении к спаму.

  3. Проверяйте не один текст, а серию. Скопируйте подозрительные комментарии или статьи в таблицу. Если пять публикаций от разных аккаунтов пересказывают одну и ту же мысль почти одинаковой структурой (вводный абзац с вопросом, три пункта, резюме с призывом), перед вами, скорее всего, координированная атака по шаблону. Именно массовое повторное использование одного «нарративного шаблона» система Google считает главным признаком.

  4. Используйте доступные детекторы для первичной фильтрации. Вставьте подозрительный текст в GPTZero или Originality.ai. Они не покажут кластер, но покажут вероятность машинного происхождения конкретного фрагмента. Для русскоязычных текстов точность ниже, чем для английских, поэтому опирайтесь на результат как на сигнал, а не приговор.

  5. Проверяйте инфраструктуру, а не только текст. Посмотрите на аккаунты-источники: дата регистрации, аватар, история публикаций, время постинга. Боты часто регистрируются пакетом, публикуют в одно и то же время и не имеют органической истории. Google анализирует именно этот уровень, инфраструктуру бот-сети, чтобы принимать решения о блокировке всего кластера.

  6. Отслеживайте «генеративные артефакты». Исследователи Google описывают проприетарные алгоритмы, которые ищут в тексте и медиа «тонкие маркеры синтетического производства, общие для нескольких каналов». На практике для вас это повторяющиеся обороты, характерные для конкретной модели (например, «давайте разберёмся», «в современном мире», избыточные списки), одинаковая длина абзацев и подозрительно ровный тон без авторских отступлений.

  7. Поймите, как Google адаптируется к новым моделям, и делайте то же. Когда спамеры переключаются на новую генеративную модель (в статье упоминаются Sora и Kling как примеры для видео), Google не переобучает огромную модель с нуля. Вместо этого используется LoRA (Low-Rank Adaptation, дообучение с малым числом параметров): быстрая, дешёвая настройка существующего классификатора на новые образцы. Для вас это означает: обновляйте свои критерии фильтрации каждый раз, когда замечаете новый паттерн спама, не ждите, пока платформа сделает это за вас.

Как это выглядит на практике

Допустим, под вашими статьями на Дзене появились пять комментариев от разных аккаунтов. Все зарегистрированы в один день, у всех стандартные аватары. Тексты разные по словам, но структура идентична: комплимент автору, вопрос с ключевым словом, ссылка на «полезный ресурс». Вы копируете все пять в таблицу, видите один и тот же нарративный шаблон, прогоняете через GPTZero, получаете 92-96% вероятности машинной генерации. Дальше смотрите профили: нет других комментариев, нет подписок, регистрация в один час. Это классический кластер, который система Google уничтожила бы целиком на уровне инфраструктуры.

Частые ошибки
  • Оценивать тексты по одному. Один подозрительный комментарий ни о чём не говорит. Сила метода Google именно в кластерном подходе: ищите группу, а не единичный случай.
  • Полагаться только на детекторы. GPTZero и аналоги дают ложные срабатывания, особенно на русском языке. Текст, написанный человеком по шаблону, тоже получит высокую оценку «синтетичности». Детектор спама это фильтр первого уровня, не финальный вердикт.
  • Игнорировать инфраструктуру. Многие модераторы смотрят только на содержание и пропускают очевидные признаки бот-сети: одинаковое время постинга, свежие аккаунты без истории, шаблонные имена.
  • Думать, что проблема касается только Google. Исследователи прямо говорят: генеративный ИИ-спам стал «экспоненциальной проблемой», которая «спроектирована так, чтобы перегружать фильтры качества». Это касается любой площадки с пользовательским контентом.

Что делать с этим прямо сейчас, по ролям

Авторам Дзена. Проверьте комментарии под своими последними публикациями по методу из шага 3. Если находите кластер, жалуйтесь на все аккаунты разом, а не по одному: это ускоряет реакцию модерации и ближе к логике, которую использует Google.

Модераторам и владельцам площадок в РФ. Методы из работы Google (S-BERT для поиска семантических дубликатов, кластерный анализ инфраструктуры, быстрое дообучение классификатора через LoRA) можно воспроизвести на открытых моделях. S-BERT доступен бесплатно, есть русскоязычные варианты (например, модели на основе multilingual Sentence-BERT от сообщества). Из доступных в РФ инструментов для анализа текстов стоит смотреть на «Турбо-Текст» и «Антиплагиат».

Маркетологам. Если вы размещаете рекламу на площадках с пользовательским контентом, спросите у площадки, какие методы защиты от ИИ-спама она применяет. Работа Google показывает, что проверка отдельных единиц контента уже не работает: нужен кластерный подход. Площадка без него рискует показывать вашу рекламу рядом с синтетическим мусором.

Мнение редакции dzen.guru

Самое ценное в этой работе Google не конкретный алгоритм, а признание: старые методы модерации проиграли гонку масштабов. Компания прямо пишет, что фокус на уровне отдельного контента «всё чаще терпит неудачу» из-за объёмов спама. Это объясняет, почему даже качественный авторский контент иногда попадает под фильтры: система вынуждена действовать грубее, чтобы справиться с потоком. Для российских площадок проблема та же, а инструментов меньше. По моим наблюдениям, русскоязычный ИИ-спам в комментариях Дзена за последний год вырос заметно, и пока платформы не внедрят кластерный подход вроде S-CTS, авторам придётся быть собственными модераторами. Честная оговорка: все описанные методы требуют технической реализации, вручную вы сможете поймать мелкий кластер, но не тысячи ботов.

Работа Google показала направление: будущее борьбы со спамом не в анализе отдельных текстов, а в уничтожении целых сетей по их инфраструктурному и семантическому следу. Если вы ведёте свою площадку, начните хотя бы с простого: сегодня откройте комментарии, найдите пять подозрительных аккаунтов и проверьте их как кластер, а не поодиночке.

Проверьте свой канал на Дзене

Используйте инструменты dzen.guru, чтобы проанализировать вовлечённость и отсеять подозрительную активность под вашими публикациями

Попробовать бесплатно

По материалам Search Engine Journal

Поделиться:TelegramVK
Игорь Градов
Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Комментарии

Читайте также

Google Ads объединил конверсии сайта и CRM: потерянные покупки вернутся в отчёты
text

Google Ads объединил конверсии сайта и CRM: потерянные покупки вернутся в отчёты

Google Ads позволил рекламодателям подключать данные из CRM и баз заказов прямо к конверсиям на сайте, чтобы восстанавливать те покупки, которые браузеры и…

5 мин
ИИ-поиск Google в 69% случаев рекомендует конкурентов из вашего же рейтинга
text

ИИ-поиск Google в 69% случаев рекомендует конкурентов из вашего же рейтинга

Google наказывает саморекламу в ИИ-поиске: ваш рейтинг «лучших» продвигает конкурентов, а не вас. Почему это важно Исследование 100 запросов в AI Overviews…

5 мин
Google читает почту и календарь до запроса: как отключить персонализацию поиска и при чём тут cookie
text

Google читает почту и календарь до запроса: как отключить персонализацию поиска и при чём тут cookie

Google больше не ждёт запроса: система строит профиль пользователя по Gmail, календарю и фото, а затем подстраивает выдачу ещё до того, как человек начнёт…

6 мин