Игорь Градов

25 июня 2026 г. в 08:30 МСК5 мин

text

13 слов на Reddit заставляют ИИ-агента рекомендовать фейк: что такое ИИ-агент и почему он уязвим

Исследователи из Cornell Tech 22 мая опубликовали работу, которая показала: короткая вставка из 13 слов на публичной странице вроде Reddit способна заставить ИИ-агента процитировать несуществующий продукт как надёжную рекомендацию.

Почему это важно

Речь не о взломе модели или сервера: атака использует обычный пользовательский контент, который ИИ-агент сам находит, цитирует и встраивает в аналитический отчёт, и у читателя нет способа отличить подделку от настоящего источника.

Исследование вышло на фоне массового запуска агентных инструментов глубокого поиска. OpenAI Deep Research, Gemini Deep Research и открытые аналоги уже пишут развёрнутые отчёты с цитатами, а пользователи воспринимают такие отчёты как проверенные. Именно эту цепочку доверия изучили авторы статьи «Deep-Research Agents Can Be Poisoned via User-Generated Content», опубликованной на arXiv 22 мая. По данным Search Engine Land, работу провели Тинвэй Чжан, Гарольд Тридман и Виталий Шматиков из Cornell Tech.

Показатель	Значение	Источник
Доля отчётов с фейковой сущностью (одна отравленная страница)	от 38% до 51%	Cornell Tech, arXiv
Доля отчётов с фейковой сущностью (несколько отравленных страниц)	от 42% до 62%	Cornell Tech, arXiv
Доля пользовательских URL среди найденных агентами	от 17% до 23%	Cornell Tech, arXiv
Доля Reddit среди пользовательских URL	от 54% до 71%	Cornell Tech, arXiv
Минимальная длина вредоносной вставки	около 13 слов	Cornell Tech, arXiv
Появление фейка при полном треде Reddit (вставка менее 4% текста)	от 30% до 53%	Cornell Tech, arXiv

Что именно проверяли?

ИИ-агент (программа, которая сама ищет информацию в интернете, собирает источники и пишет отчёт с цитатами) работает примерно как дотошный стажёр: открывает десятки страниц, выбирает релевантные куски и компонует ответ. Исследователи проверили, что случится, если на одной из таких страниц окажется короткая подставная фраза.

Метод назвали WARP (Web Agent Retrieval Poisoning, дословно «отравление поиска веб-агента»). Атакующему не нужен доступ ни к модели, ни к промпту (запросу, который направляет модель), ни к поисковой системе. Достаточно отредактировать или дописать текст на странице, которую агент и так склонен находить: тред на Reddit, статью в Wikipedia, пост на форуме.

Для тестов исследователи не трогали реальные сайты. Они создали симуляционную среду GeoStorm, которая подставляла изменённый текст в контент, уже полученный агентом. Полную атаку прогнали на трёх открытых системах: STORM, Co-STORM и OmniThink. OpenAI Deep Research и Gemini Deep Research анализировали только на предмет пользовательских цитат, без живых манипуляций, потому что это потребовало бы публикации поддельного контента в открытом интернете.

Что обнаружили?

Минимальная вставка работает. В одном тесте предложение из 15 слов протащило вымышленную криптовалюту «BananaCoin» в отчёт Co-STORM как «перспективную» долгосрочную инвестицию. Агент процитировал подставной источник рядом с настоящими.
Reddit оказался главной точкой входа. От 54% до 71% пользовательских URL, которые находили три открытые системы, вели на Reddit. Агенты при глубоком поиске запускают множество связанных запросов, и одни и те же пользовательские страницы всплывают снова и снова.
Даже когда вставка занимала менее 4% текста полного Reddit-треда, фейковая сущность появлялась в 30%–53% отчётов, если страница попадала в выдачу агента.
Защиты не справились. Блокировка пользовательских доменов убирала вектор атаки, но вместе с ним уходили живые отзывы и локальные рекомендации. Текстовые фильтры на основе перплексии (метрики, насколько текст «неожиданный» для модели) чаще отмечали обычный пользовательский контент, чем вставку, потому что вредоносный текст сам был написан нейросетью и выглядел гладко. Проверка готовых отчётов тоже не помогала: агент сам аккуратно вплетал фейк в нормальный ответ.

Как читать эти цифры

Тесты проведены на трёх открытых системах в симуляционной среде, а не на живых сайтах. OpenAI Deep Research и Gemini Deep Research атаке не подвергались: авторы лишь зафиксировали, что эти сервисы тоже цитируют пользовательский контент. Реальные показатели на продакшен-системах могут отличаться, но сам механизм уязвимости от платформы не зависит.

Что это значит для вас?

Понять, что такое ИИ-агент в контексте этого исследования, полезно каждому, кто читает или создаёт контент. Агент не просто генерирует текст, он сам ходит по сайтам и решает, чему доверять. Вот что с этим делать на практике.

Автору Дзена и копирайтеру. Если вы пишете обзоры, рейтинги или подборки, учитывайте: ИИ-агенты уже сейчас могут подтягивать фейковые рекомендации из форумов и подавать их как проверенные. Ваша экспертиза и ручная проверка источников становятся конкурентным преимуществом перед автоматическими отчётами.

Маркетологу. Исследование показывает обратную сторону «оптимизации под ИИ-поиск»: если агент легко подхватывает 13 слов с Reddit, значит, и ваш бренд могут подставить точно так же. Мониторьте упоминания на пользовательских платформах, особенно на тех, откуда агенты чаще берут данные.

Предпринимателю из РФ и СНГ. Русскоязычные площадки пользовательского контента, ВКонтакте, Яндекс.Кью, форумы вроде iXBT, работают по тому же принципу, что и Reddit: открытый текст, который агент может найти и процитировать. Локальные ИИ-агенты (от YandexGPT до GigaChat) индексируют именно эти площадки, и на менее модерируемых русскоязычных форумах подобные манипуляции могут оказаться проще, чем на англоязычных, просто потому что фильтрация слабее и конкуренция за внимание агента ниже.

Мнение редакции dzen.guru

Я вижу здесь два сигнала. Первый: любой «глубокий отчёт» от ИИ-агента стоит перепроверять руками, пока индустрия не придумала рабочую защиту. Фильтры пока проигрывают, потому что отравленный текст написан той же нейросетью, от которой ждут фильтрации. Второй сигнал для авторов: живой экспертный текст с прозрачными источниками сейчас ценнее, чем год назад. Пока агенты не научились отличать подставу от факта, человек с репутацией остаётся последним фильтром.

Если вы используете любой инструмент глубокого поиска с ИИ-агентом, возьмите за правило: открывайте первоисточник, на который ссылается отчёт, и проверяйте, существует ли рекомендованный продукт или сервис за пределами одного пользовательского поста.

По данным Search Engine Land

Поделиться:Telegram VK

Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Google ИИ ответы охватили 50% запросов, но цитируют лишь 3% брендов

Google ИИ ответы появляются уже в половине поисковых запросов, где конкурируют крупные B2B-компании, но при этом медианный бренд попадает в эти ответы лишь в…

25 июня в 09:46 МСК5 мин

text

Google AI поиск считает показы только после раскрытия ссылки: Мюллер объяснил логику

Google недавно запустила новый отчёт в Search Console, который показывает, как сайты появляются в ответах генеративного ИИ, но метрика показов в нём работает…

25 июня в 08:15 МСК5 мин

text

Google спам апдейт июня 2026 бьёт по всем языкам: что проверить на сайте прямо сейчас

Google 24 июня 2026 года начала раскатку июньского спам апдейта, который затрагивает поисковую выдачу на всех языках, включая русский, и может вызвать…

25 июня в 06:15 МСК4 мин

13 слов на Reddit заставляют ИИ-агента рекомендовать фейк: что такое ИИ-агент и почему он уязвим

Что именно проверяли?

Что обнаружили?

Что это значит для вас?

Комментарии

Читайте также

Google ИИ ответы охватили 50% запросов, но цитируют лишь 3% брендов

Google AI поиск считает показы только после раскрытия ссылки: Мюллер объяснил логику

Google спам апдейт июня 2026 бьёт по всем языкам: что проверить на сайте прямо сейчас