Игорь Градов

20 июня 2026 г. в 08:15 МСК5 мин

ИИ-агенты сливают секреты компаний через поиск: безопасность падает при росте точности

Microsoft, OpenAI, Google, другие компании активно встраивают ИИ-агентов в корпоративные сервисы, но исследователи из ServiceNow обнаружили системную проблему: даже безобидные поисковые запросы таких агентов способны по кусочкам выдать конфиденциальные данные компании любому наблюдателю сетевого трафика.

Почему это важно

Проблема не в одном запросе, а в их совокупности: каждый выглядит невинно, но вместе они позволяют восстановить внутреннюю информацию компании. Стандартная инструкция «не сливай данные» в системном промпте почти не помогает, а улучшение качества работы агента делает утечки ещё хуже.

Команда ServiceNow Research опубликовала на HuggingFace результаты проекта MosaicLeaks. Исследование впервые формализовало так называемый «мозаичный эффект» применительно к ИИ-агентам безопасность которых до сих пор оценивалась в основном по прямым атакам, а не по косвенным утечкам через обычную работу. Мозаичный эффект означает, что отдельные фрагменты информации безвредны, но собранные вместе раскрывают секрет. Это хорошо известная проблема в разведке, и теперь она перешла в мир корпоративных ИИ-агентов.

Показатель	Значение	Источник
Число исследовательских цепочек в датасете	1 001	MosaicLeaks, HuggingFace
Обучающая выборка	559 цепочек	MosaicLeaks, HuggingFace
Тестовая выборка (компании, не участвовавшие в обучении)	344 цепочки	MosaicLeaks, HuggingFace
Утечка ответов/полной информации до обучения (Qwen3-4B)	34,0%	MosaicLeaks, HuggingFace
Утечка после обучения только на качество	51,7%	MosaicLeaks, HuggingFace
Утечка после обучения методом PA-DR	9,9%	MosaicLeaks, HuggingFace
Точность цепочек до обучения (Qwen3-4B)	48,7%	MosaicLeaks, HuggingFace
Точность цепочек после PA-DR	58,7%	MosaicLeaks, HuggingFace

Что на самом деле измеряли?

Представьте: ИИ-агент (программа, которая сама ищет информацию и принимает решения) работает в компании. Часть данных лежит в закрытых внутренних документах, часть он ищет в открытом интернете. Чтобы ответить на сложный вопрос, агент выстраивает цепочку: сначала находит факт в корпоративных файлах, потом использует его как подсказку для следующего поиска в сети.

Исследователи построили 1 001 такую многошаговую цепочку. Каждая переплетает «локальные» шаги (поиск по закрытым документам) и «веб-шаги» (поиск в открытых источниках). Ответ одного шага становится мостиком к следующему.

Утечку измеряли тремя способами, от слабой к опасной:

Утечка намерения: наблюдатель понимает, что именно агент исследует.
Утечка ответа: из журнала запросов можно ответить на конкретный вопрос о закрытых данных, если наблюдатель уже знает, что спросить.
Полная утечка информации: наблюдатель восстанавливает факты из закрытых документов, даже не зная заранее, что искать.

Роль «шпиона» проста: он не видит ни внутренние документы, ни рассуждения агента, только журнал исходящих поисковых запросов.

Три вывода, которые должны насторожить

34% запросов базовой модели Qwen3-4B приводили к утечке ответов или полной информации. Каждый третий рабочий цикл агента выдавал наружу достаточно деталей, чтобы восстановить закрытые корпоративные факты.
Обучение агента работать точнее увеличило утечки с 34% до 51,7%. Модель научилась упаковывать больше контекста в поисковые запросы, потому что так проще найти нужный документ, но каждый такой запрос становится подарком для наблюдателя. Точность цепочек выросла с 48,7% до 59,3%, но ценой безопасности.
Промпт (текстовая инструкция) «не сливай данные» снизил утечку лишь с 34% до 25,5%, а точность при этом упала с 48,7% до 44,5%. Агент просто стал реже искать в интернете, а не научился формулировать запросы безопаснее.

Исследователи предложили собственный метод обучения PA-DR (Privacy-Aware Deep Research), который учитывает приватность прямо в процессе тренировки. Он снизил утечку до 9,9% и одновременно поднял точность до 58,7%. Это единственный подход из протестированных, который улучшил оба показателя сразу.

Как это читать

Исследование проведено на одной относительно небольшой модели Qwen3-4B (4 миллиарда параметров). Как поведут себя крупные модели вроде GPT-4o или Claude, работа не показывает. Датасет из 1 001 цепочки покрывает синтетические корпоративные сценарии, а не реальные внутренние документы конкретных компаний, поэтому масштаб утечек в живых системах может отличаться в обе стороны. Метод PA-DR пока протестирован только авторами и не прошёл независимую проверку.

Что делать с этим прямо сейчас?

Авторам Дзена и копирайтерам. Если вы используете ИИ-агентов для ресёрча (например, загружаете закрытые брифы клиентов и просите агента дополнить информацию из интернета), учитывайте: поисковые запросы, которые агент формирует, могут содержать фрагменты вашего брифа. Не загружайте в агентные системы с веб-доступом данные, утечка которых критична.

Маркетологам. Корпоративные ИИ-ассистенты, подключённые к CRM или внутренним базам и одновременно к интернету, создают канал утечки, о котором мало кто задумывается. Это аргумент для пересмотра политик доступа ИИ-агентов к внешним сервисам.

Предпринимателям в РФ и СНГ. Российские компании при внедрении локальных ИИ-агентов должны учитывать риск утечки конфиденциальной информации через запросы к внешним источникам. Даже безобидные на вид поисковые запросы в совокупности могут раскрыть внутренние данные. Из доступных в РФ решений, YandexGPT и GigaChat, пока нет публичных данных о подобном аудите, и это повод задать вопрос вендору до подключения агента к корпоративной базе знаний.

Мнение редакции dzen.guru

Это исследование показывает неочевидную вещь: проблема ИИ-агентов и безопасности лежит не там, где её обычно ищут. Все обсуждают джейлбрейки (обход ограничений модели) и вредоносные промпты, а реальная утечка происходит через штатную работу агента. По моим наблюдениям, большинство сервисов, предлагающих «агентный ИИ для бизнеса», вообще не упоминают этот риск в документации. А самый тревожный вывод: чем лучше агент решает задачу, тем больше он сливает. Это не баг, который можно закрыть патчем, а фундаментальное противоречие в архитектуре.

Пока метод PA-DR не стал стандартом индустрии, самый надёжный способ защиты прост и некрасив: не давайте агенту одновременный доступ к закрытым документам и к открытому интернету, если утечка этих документов для вас неприемлема.

По материалам HuggingFace

Поделиться:Telegram VK

Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Яндекс ГПТ в ИИ-агентах за 15 минут: готовые конфиги для OpenCode, Pi и Hermes

Яндекс ГПТ подключается к инструментам разработки через стандартный OpenAI-совместимый протокол, и автор Habr собрал готовые конфиги для OpenCode, Pi и Hermes,…

20 июня в 08:45 МСК5 мин

Что такое ИИ-агент SpatialClaw: NVIDIA набрала 59,9% на 20 бенчмарках без дообучения

NVIDIA выпустила SpatialClaw, ИИ-агента для пространственного мышления, который не требует дообучения и работает через код: на 20 бенчмарках он набрал 59,9%…

20 июня в 07:45 МСК5 мин

Что такое ИИ-агент с ожиданием: локальный граф на LangGraph без облака за 2 часа

Большинство разговоров об ИИ-агентах (agent, программа, которая сама решает, какой инструмент вызвать и когда остановиться) заканчиваются на уровне «подключите…

20 июня в 07:30 МСК7 мин