13 слов на Reddit заставляют ИИ-агента рекомендовать фейк: что такое ИИ-агент и почему он уязвим
Исследователи из Cornell Tech 22 мая опубликовали работу, которая показала: короткая вставка из 13 слов на публичной странице вроде Reddit способна заставить ИИ-агента процитировать несуществующий продукт как надёжную рекомендацию.

Речь не о взломе модели или сервера: атака использует обычный пользовательский контент, который ИИ-агент сам находит, цитирует и встраивает в аналитический отчёт, и у читателя нет способа отличить подделку от настоящего источника.
Исследование вышло на фоне массового запуска агентных инструментов глубокого поиска. OpenAI Deep Research, Gemini Deep Research и открытые аналоги уже пишут развёрнутые отчёты с цитатами, а пользователи воспринимают такие отчёты как проверенные. Именно эту цепочку доверия изучили авторы статьи «Deep-Research Agents Can Be Poisoned via User-Generated Content», опубликованной на arXiv 22 мая. По данным Search Engine Land, работу провели Тинвэй Чжан, Гарольд Тридман и Виталий Шматиков из Cornell Tech.
| Показатель | Значение | Источник |
|---|---|---|
| Доля отчётов с фейковой сущностью (одна отравленная страница) | от 38% до 51% | Cornell Tech, arXiv |
| Доля отчётов с фейковой сущностью (несколько отравленных страниц) | от 42% до 62% | Cornell Tech, arXiv |
| Доля пользовательских URL среди найденных агентами | от 17% до 23% | Cornell Tech, arXiv |
| Доля Reddit среди пользовательских URL | от 54% до 71% | Cornell Tech, arXiv |
| Минимальная длина вредоносной вставки | около 13 слов | Cornell Tech, arXiv |
| Появление фейка при полном треде Reddit (вставка менее 4% текста) | от 30% до 53% | Cornell Tech, arXiv |
Что именно проверяли?
ИИ-агент (программа, которая сама ищет информацию в интернете, собирает источники и пишет отчёт с цитатами) работает примерно как дотошный стажёр: открывает десятки страниц, выбирает релевантные куски и компонует ответ. Исследователи проверили, что случится, если на одной из таких страниц окажется короткая подставная фраза.
Метод назвали WARP (Web Agent Retrieval Poisoning, дословно «отравление поиска веб-агента»). Атакующему не нужен доступ ни к модели, ни к промпту (запросу, который направляет модель), ни к поисковой системе. Достаточно отредактировать или дописать текст на странице, которую агент и так склонен находить: тред на Reddit, статью в Wikipedia, пост на форуме.
Для тестов исследователи не трогали реальные сайты. Они создали симуляционную среду GeoStorm, которая подставляла изменённый текст в контент, уже полученный агентом. Полную атаку прогнали на трёх открытых системах: STORM, Co-STORM и OmniThink. OpenAI Deep Research и Gemini Deep Research анализировали только на предмет пользовательских цитат, без живых манипуляций, потому что это потребовало бы публикации поддельного контента в открытом интернете.
Что обнаружили?
-
Минимальная вставка работает. В одном тесте предложение из 15 слов протащило вымышленную криптовалюту «BananaCoin» в отчёт Co-STORM как «перспективную» долгосрочную инвестицию. Агент процитировал подставной источник рядом с настоящими.
-
Reddit оказался главной точкой входа. От 54% до 71% пользовательских URL, которые находили три открытые системы, вели на Reddit. Агенты при глубоком поиске запускают множество связанных запросов, и одни и те же пользовательские страницы всплывают снова и снова.
-
Даже когда вставка занимала менее 4% текста полного Reddit-треда, фейковая сущность появлялась в 30%–53% отчётов, если страница попадала в выдачу агента.
-
Защиты не справились. Блокировка пользовательских доменов убирала вектор атаки, но вместе с ним уходили живые отзывы и локальные рекомендации. Текстовые фильтры на основе перплексии (метрики, насколько текст «неожиданный» для модели) чаще отмечали обычный пользовательский контент, чем вставку, потому что вредоносный текст сам был написан нейросетью и выглядел гладко. Проверка готовых отчётов тоже не помогала: агент сам аккуратно вплетал фейк в нормальный ответ.
Тесты проведены на трёх открытых системах в симуляционной среде, а не на живых сайтах. OpenAI Deep Research и Gemini Deep Research атаке не подвергались: авторы лишь зафиксировали, что эти сервисы тоже цитируют пользовательский контент. Реальные показатели на продакшен-системах могут отличаться, но сам механизм уязвимости от платформы не зависит.
Что это значит для вас?
Понять, что такое ИИ-агент в контексте этого исследования, полезно каждому, кто читает или создаёт контент. Агент не просто генерирует текст, он сам ходит по сайтам и решает, чему доверять. Вот что с этим делать на практике.
Автору Дзена и копирайтеру. Если вы пишете обзоры, рейтинги или подборки, учитывайте: ИИ-агенты уже сейчас могут подтягивать фейковые рекомендации из форумов и подавать их как проверенные. Ваша экспертиза и ручная проверка источников становятся конкурентным преимуществом перед автоматическими отчётами.
Маркетологу. Исследование показывает обратную сторону «оптимизации под ИИ-поиск»: если агент легко подхватывает 13 слов с Reddit, значит, и ваш бренд могут подставить точно так же. Мониторьте упоминания на пользовательских платформах, особенно на тех, откуда агенты чаще берут данные.
Предпринимателю из РФ и СНГ. Русскоязычные площадки пользовательского контента, ВКонтакте, Яндекс.Кью, форумы вроде iXBT, работают по тому же принципу, что и Reddit: открытый текст, который агент может найти и процитировать. Локальные ИИ-агенты (от YandexGPT до GigaChat) индексируют именно эти площадки, и на менее модерируемых русскоязычных форумах подобные манипуляции могут оказаться проще, чем на англоязычных, просто потому что фильтрация слабее и конкуренция за внимание агента ниже.
Я вижу здесь два сигнала. Первый: любой «глубокий отчёт» от ИИ-агента стоит перепроверять руками, пока индустрия не придумала рабочую защиту. Фильтры пока проигрывают, потому что отравленный текст написан той же нейросетью, от которой ждут фильтрации. Второй сигнал для авторов: живой экспертный текст с прозрачными источниками сейчас ценнее, чем год назад. Пока агенты не научились отличать подставу от факта, человек с репутацией остаётся последним фильтром.
Если вы используете любой инструмент глубокого поиска с ИИ-агентом, возьмите за правило: открывайте первоисточник, на который ссылается отчёт, и проверяйте, существует ли рекомендованный продукт или сервис за пределами одного пользовательского поста.
По данным Search Engine Land

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».
Читайте также

Google ИИ ответы охватили 50% запросов, но цитируют лишь 3% брендов
Google ИИ ответы появляются уже в половине поисковых запросов, где конкурируют крупные B2B-компании, но при этом медианный бренд попадает в эти ответы лишь в…

Google AI поиск считает показы только после раскрытия ссылки: Мюллер объяснил логику
Google недавно запустила новый отчёт в Search Console, который показывает, как сайты появляются в ответах генеративного ИИ, но метрика показов в нём работает…

Google спам апдейт июня 2026 бьёт по всем языкам: что проверить на сайте прямо сейчас
Google 24 июня 2026 года начала раскатку июньского спам апдейта, который затрагивает поисковую выдачу на всех языках, включая русский, и может вызвать…
Комментарии