Игорь Градов
Игорь Градов
6 мин
ai

Безопасность ИИ-агентов: 5 шагов, чтобы агент не слил данные и не перевёл деньги сам

Компании в 2025 году массово запускают ИИ-агентов (программы, которые сами выполняют задачи: отправляют письма, правят базы данных, запускают код), но классические средства защиты для них уже не работают.

Безопасность ИИ-агентов: 5 шагов, чтобы агент не слил данные и не перевёл деньги сам
Почему это важно

Агент, в отличие от чат-бота, совершает реальные действия: переводит деньги, меняет записи в CRM (система управления клиентами), запускает код на сервере. Одна пропущенная уязвимость может обернуться финансовыми потерями или утечкой данных, и стандартные фильтры промптов (запросов к модели) эту проблему не решают.

Организация OWASP (Open Worldwide Application Security Project, международный проект по безопасности приложений) в 2026 году опубликовала список десяти главных угроз для агентных приложений, OWASP Top 10 for Agentic Applications. Среди них: подмена вызовов инструментов, отравление памяти агента, каскадные сбои в мультиагентных системах (когда несколько ИИ-агентов работают цепочкой) и манипуляция целями агента. Российский рынок не исключение: любая компания, внедряющая агентов, сталкивается с теми же рисками, но должна учитывать ещё и локальные требования к хранению данных и безопасности. Продукт INFERA AI.Firewall, о котором пойдёт речь ниже, заявляет, что уже закрывает значительную часть этих требований.

Что понадобится

  • Доступ к INFERA AI.Firewall (облачная или on-premise версия)
  • Список всех агентных систем в вашей инфраструктуре: фреймворки, подключённые инструменты, способ запуска
  • Описание критичных операций, которые агенты выполняют (финансовые переводы, изменение данных клиентов, запуск кода)
  • Время: первичный аудит займёт от одного до трёх рабочих дней в зависимости от количества агентов

Пять шагов к безопасности ИИ-агентов

  1. Проведите аудит агентных систем. Составьте реестр: какие агенты работают, какие фреймворки используют, к каким инструментам и API обращаются. Без этой карты вы не знаете, что защищать.

  2. Внедрите сквозное логирование действий и рассуждений агентов. Фиксируйте каждый вызов инструмента (tool call, обращение агента к внешнему сервису или функции). Минимум: логируйте все критичные команды, финансовые операции и обращения к базам данных.

  3. Настройте политики наименьших привилегий (least privilege) для каждого вызова инструмента. Через INFERA AI.Firewall это делается на уровне единого API-шлюза. Каждый вызов получает один из трёх вердиктов: allow (разрешить), deny (отклонить), pending (ожидать подтверждения человека).

# Пример политики для агента, работающего с CRM
policy:
  agent_id: crm_agent_01
  tool_calls:
    - tool: update_customer_record
      verdict: pending        # требует подтверждения оператора
    - tool: read_customer_record
      verdict: allow
    - tool: delete_customer_record
      verdict: deny           # запрещено без исключений
  token_quota:
    max_per_hour: 50000
    max_per_day: 500000
  1. Включите Human-in-the-Loop для действий с финансовыми и критическими последствиями. Агент не должен сам переводить деньги или удалять данные. Настройте вердикт pending для таких операций, и система будет ждать подтверждения живого сотрудника.

  2. Запустите регулярный Red Teaming (имитация атак на ваших агентов). Проверяйте сценарии: что будет, если агенту подсунут отравленные данные через RAG (retrieval-augmented generation, метод, когда модель ищет ответ в вашей базе знаний)? Что случится при попытке подмены идентичности агента? INFERA предоставляет pre-deployment контур со сканерами навыков и аудитом конфигураций для таких проверок.

Как INFERA AI.Firewall обрабатывает запросы на практике?

Все обращения агента к языковой модели и вызовы инструментов проходят через центральный модуль системы. Конвейер защиты срабатывает последовательно на каждом шаге:

  • Инспекция входных данных. Система ищет prompt injection (внедрение вредоносных инструкций в запрос), jailbreak-попытки (попытки обойти ограничения модели) и подозрительные команды
  • Сверка с движком политик и реестром доверия. Проверяется, имеет ли агент право на этот конкретный вызов
  • MCP-прокси (прокси для протокола взаимодействия между моделью и инструментами). Анализирует аргументы вызываемого инструмента: разрешён ли сам инструмент, допустимы ли переданные параметры
  • Инспекция выходных данных. Фильтрация утечек информации, поиск секретов и чувствительных данных в ответах

Дополнительно можно задать квоты по частоте запросов и общему количеству токенов (единиц текста, которые обрабатывает модель). Это защищает и от атак на отказ в обслуживании, и от неконтролируемого расхода бюджета на API языковых моделей.

Для экономии доступен ML-роутинг: простые запросы агента направляются на лёгкую модель, сложные на мощную. По данным разработчиков INFERA, это позволяет снизить затраты без потери качества при грамотном управлении контекстом.

Как это применить

Допустим, ваш ИИ-агент обрабатывает входящие заявки клиентов: читает письмо, находит заказ в базе, обновляет статус, отправляет ответ. Вы подключаете INFERA AI.Firewall как API-шлюз. Агент отправляет запрос на обновление статуса заказа. Система проверяет: агент имеет право на чтение, имеет право на обновление статуса, но не имеет права на удаление заказа. Вердикт allow для обновления, deny для удаления. Если агент пытается отправить клиенту данные, содержащие внутренние секреты компании, инспекция выхода блокирует отправку и логирует инцидент. Оператор видит запись в журнале и принимает решение.

Частые ошибки

Безопасность ИИ-агентов не сводится к фильтрации промптов. Самая распространённая ошибка: компания ставит фильтр на входе, проверяет текст запроса пользователя, и считает задачу решённой. Но агент может получить вредоносные данные не от пользователя, а из RAG-системы или ответа внешнего API. Это называется indirect prompt injection (непрямое внедрение инструкций), и текстовый фильтр его не поймает.

Отсутствие квот. Без ограничений по токенам агент может зациклиться или быть спровоцирован на бесконечную цепочку вызовов, что обойдётся компании в круглую сумму за API.

Агент с правами администратора. Если вы дали агенту полный доступ ко всем инструментам без политик allow/deny, одна скомпрометированная инструкция запустит каскад действий с реальными последствиями.

Игнорирование межагентной аутентификации. В мультиагентных системах один «заражённый» агент может передать вредоносные инструкции другим. Без проверки идентичности агентов эта атака остаётся невидимой.

Что делать прямо сейчас по ролям?

Авторам Дзена и копирайтерам. Если вы используете ИИ-агентов для автоматизации публикаций (сбор фактов, генерация черновиков, работа с изображениями), убедитесь, что агент не имеет доступа к удалению или редактированию опубликованного контента без вашего подтверждения. Human-in-the-Loop здесь не формальность, а страховка от потери материалов.

Маркетологам. Агенты, работающие с CRM и рекламными кабинетами, могут менять бюджеты и сегменты аудитории. Логирование каждого вызова инструмента позволит вам отследить, когда и почему агент изменил ставку или переключил кампанию.

Предпринимателям в РФ и СНГ. INFERA AI.Firewall позиционируется как локальное решение, что важно для соблюдения требований по хранению данных на территории России. Из доступных в РФ аналогов стоит смотреть на GigaChat и YandexGPT как языковые модели, но специализированных продуктов уровня Agent Runtime Security на российском рынке пока мало, и INFERA занимает эту нишу.

Мнение редакции dzen.guru

Безопасность ИИ-агентов в 2025 году находится примерно там же, где безопасность веб-приложений была в середине 2000-х: угрозы уже реальны, а стандарты только формируются. OWASP Top 10 for Agentic Applications это первая серьёзная попытка систематизировать риски, и компаниям стоит использовать этот список как чек-лист, даже если вы не внедряете INFERA.

По моим наблюдениям, главная проблема не техническая, а организационная: команды запускают агентов в продакшн без аудита, потому что «это же просто чат-бот с инструментами». Это не чат-бот. Это программа с правами на действия, и относиться к ней нужно как к сотруднику с доступом к критичным системам.

Честная оговорка: INFERA заявляет, что «уже закрывает значительную часть требований», но по каким именно пунктам OWASP Top 10 решение полностью готово, а по каким находится в разработке, в источнике не детализировано. Перед внедрением запрашивайте у вендора матрицу соответствия.

Начните с первого шага: составьте реестр своих агентов и их прав. Без этой карты любой инструмент защиты, будь то INFERA или что-то ещё, работает вслепую. А агент, работающий вслепую, это не помощник, а источник риска.

Автоматизируйте контент безопасно

Попробуйте инструменты dzen.guru для работы с нейросетями и узнайте, как выстроить безопасный процесс создания контента с ИИ

Попробовать бесплатно
Поделиться:TelegramVK
Игорь Градов
Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Комментарии

Читайте также

ИИ-компании в России строят команды вокруг процессов, а не моделей: что меняется в ролях
ai

ИИ-компании в России строят команды вокруг процессов, а не моделей: что меняется в ролях

Компании по всему миру, включая крупных технологических игроков, начали перестраивать команды не вокруг конкретных моделей искусственного интеллекта, а вокруг…

5 мин
ИИ-агенты это модель плюс инструменты: архитектура на 20 строках кода
ai

ИИ-агенты это модель плюс инструменты: архитектура на 20 строках кода

Автор Дзена или маркетолог, который слышит «сделайте нам ИИ-агента» и хочет понять, что стоит за этим словом, после этого разбора увидит архитектуру агента…

8 мин
6 ошибок архитектуры AI агентов, которые ломают продакшен на длинных цепочках
ai

6 ошибок архитектуры AI агентов, которые ломают продакшен на длинных цепочках

повторные вызовы с одними и теми же аргументами учащаются. На длинных цепочках качество решений деградирует заметно. Причина. Контекстное окно модели — это…

4 мин