ИИ-агенты сливают секреты компаний через поиск: безопасность падает при росте точности
Microsoft, OpenAI, Google, другие компании активно встраивают ИИ-агентов в корпоративные сервисы, но исследователи из ServiceNow обнаружили системную проблему: даже безобидные поисковые запросы таких агентов способны по кусочкам выдать конфиденциальные данные компании любому наблюдателю сетевого трафика.

Проблема не в одном запросе, а в их совокупности: каждый выглядит невинно, но вместе они позволяют восстановить внутреннюю информацию компании. Стандартная инструкция «не сливай данные» в системном промпте почти не помогает, а улучшение качества работы агента делает утечки ещё хуже.
Команда ServiceNow Research опубликовала на HuggingFace результаты проекта MosaicLeaks. Исследование впервые формализовало так называемый «мозаичный эффект» применительно к ИИ-агентам безопасность которых до сих пор оценивалась в основном по прямым атакам, а не по косвенным утечкам через обычную работу. Мозаичный эффект означает, что отдельные фрагменты информации безвредны, но собранные вместе раскрывают секрет. Это хорошо известная проблема в разведке, и теперь она перешла в мир корпоративных ИИ-агентов.
| Показатель | Значение | Источник |
|---|---|---|
| Число исследовательских цепочек в датасете | 1 001 | MosaicLeaks, HuggingFace |
| Обучающая выборка | 559 цепочек | MosaicLeaks, HuggingFace |
| Тестовая выборка (компании, не участвовавшие в обучении) | 344 цепочки | MosaicLeaks, HuggingFace |
| Утечка ответов/полной информации до обучения (Qwen3-4B) | 34,0% | MosaicLeaks, HuggingFace |
| Утечка после обучения только на качество | 51,7% | MosaicLeaks, HuggingFace |
| Утечка после обучения методом PA-DR | 9,9% | MosaicLeaks, HuggingFace |
| Точность цепочек до обучения (Qwen3-4B) | 48,7% | MosaicLeaks, HuggingFace |
| Точность цепочек после PA-DR | 58,7% | MosaicLeaks, HuggingFace |
Что на самом деле измеряли?
Представьте: ИИ-агент (программа, которая сама ищет информацию и принимает решения) работает в компании. Часть данных лежит в закрытых внутренних документах, часть он ищет в открытом интернете. Чтобы ответить на сложный вопрос, агент выстраивает цепочку: сначала находит факт в корпоративных файлах, потом использует его как подсказку для следующего поиска в сети.
Исследователи построили 1 001 такую многошаговую цепочку. Каждая переплетает «локальные» шаги (поиск по закрытым документам) и «веб-шаги» (поиск в открытых источниках). Ответ одного шага становится мостиком к следующему.
Утечку измеряли тремя способами, от слабой к опасной:
- Утечка намерения: наблюдатель понимает, что именно агент исследует.
- Утечка ответа: из журнала запросов можно ответить на конкретный вопрос о закрытых данных, если наблюдатель уже знает, что спросить.
- Полная утечка информации: наблюдатель восстанавливает факты из закрытых документов, даже не зная заранее, что искать.
Роль «шпиона» проста: он не видит ни внутренние документы, ни рассуждения агента, только журнал исходящих поисковых запросов.
Три вывода, которые должны насторожить
-
34% запросов базовой модели Qwen3-4B приводили к утечке ответов или полной информации. Каждый третий рабочий цикл агента выдавал наружу достаточно деталей, чтобы восстановить закрытые корпоративные факты.
-
Обучение агента работать точнее увеличило утечки с 34% до 51,7%. Модель научилась упаковывать больше контекста в поисковые запросы, потому что так проще найти нужный документ, но каждый такой запрос становится подарком для наблюдателя. Точность цепочек выросла с 48,7% до 59,3%, но ценой безопасности.
-
Промпт (текстовая инструкция) «не сливай данные» снизил утечку лишь с 34% до 25,5%, а точность при этом упала с 48,7% до 44,5%. Агент просто стал реже искать в интернете, а не научился формулировать запросы безопаснее.
Исследователи предложили собственный метод обучения PA-DR (Privacy-Aware Deep Research), который учитывает приватность прямо в процессе тренировки. Он снизил утечку до 9,9% и одновременно поднял точность до 58,7%. Это единственный подход из протестированных, который улучшил оба показателя сразу.
Исследование проведено на одной относительно небольшой модели Qwen3-4B (4 миллиарда параметров). Как поведут себя крупные модели вроде GPT-4o или Claude, работа не показывает. Датасет из 1 001 цепочки покрывает синтетические корпоративные сценарии, а не реальные внутренние документы конкретных компаний, поэтому масштаб утечек в живых системах может отличаться в обе стороны. Метод PA-DR пока протестирован только авторами и не прошёл независимую проверку.
Что делать с этим прямо сейчас?
Авторам Дзена и копирайтерам. Если вы используете ИИ-агентов для ресёрча (например, загружаете закрытые брифы клиентов и просите агента дополнить информацию из интернета), учитывайте: поисковые запросы, которые агент формирует, могут содержать фрагменты вашего брифа. Не загружайте в агентные системы с веб-доступом данные, утечка которых критична.
Маркетологам. Корпоративные ИИ-ассистенты, подключённые к CRM или внутренним базам и одновременно к интернету, создают канал утечки, о котором мало кто задумывается. Это аргумент для пересмотра политик доступа ИИ-агентов к внешним сервисам.
Предпринимателям в РФ и СНГ. Российские компании при внедрении локальных ИИ-агентов должны учитывать риск утечки конфиденциальной информации через запросы к внешним источникам. Даже безобидные на вид поисковые запросы в совокупности могут раскрыть внутренние данные. Из доступных в РФ решений, YandexGPT и GigaChat, пока нет публичных данных о подобном аудите, и это повод задать вопрос вендору до подключения агента к корпоративной базе знаний.
Это исследование показывает неочевидную вещь: проблема ИИ-агентов и безопасности лежит не там, где её обычно ищут. Все обсуждают джейлбрейки (обход ограничений модели) и вредоносные промпты, а реальная утечка происходит через штатную работу агента. По моим наблюдениям, большинство сервисов, предлагающих «агентный ИИ для бизнеса», вообще не упоминают этот риск в документации. А самый тревожный вывод: чем лучше агент решает задачу, тем больше он сливает. Это не баг, который можно закрыть патчем, а фундаментальное противоречие в архитектуре.
Пока метод PA-DR не стал стандартом индустрии, самый надёжный способ защиты прост и некрасив: не давайте агенту одновременный доступ к закрытым документам и к открытому интернету, если утечка этих документов для вас неприемлема.
По материалам HuggingFace

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».
Читайте также

Яндекс ГПТ в ИИ-агентах за 15 минут: готовые конфиги для OpenCode, Pi и Hermes
Яндекс ГПТ подключается к инструментам разработки через стандартный OpenAI-совместимый протокол, и автор Habr собрал готовые конфиги для OpenCode, Pi и Hermes,…

Что такое ИИ-агент SpatialClaw: NVIDIA набрала 59,9% на 20 бенчмарках без дообучения
NVIDIA выпустила SpatialClaw, ИИ-агента для пространственного мышления, который не требует дообучения и работает через код: на 20 бенчмарках он набрал 59,9%…

Что такое ИИ-агент с ожиданием: локальный граф на LangGraph без облака за 2 часа
Большинство разговоров об ИИ-агентах (agent, программа, которая сама решает, какой инструмент вызвать и когда остановиться) заканчиваются на уровне «подключите…
Комментарии