Что такое ИИ-агент без проверки: Patronus AI получила $50M на стресс-тесты до продакшна

Patronus AI, стартап бывших исследователей Meta, 5 июня привлёк 50 миллионов долларов на симуляции, в которых ИИ-агенты проходят стресс-тесты до того, как их выпустят к реальным пользователям.

Параметр	Данные
Компания	Patronus AI (Сан-Франциско, основана в 2023)
Сумма раунда	50 млн долларов (Series B)
Лид-инвестор	Greenfield Partners
Участники	Notable Capital, Lightspeed, Datadog, Samsung
Общий объём привлечённых средств	70 млн долларов
Рост выручки	в 15 раз за последний год (по данным компании)

Зачем строить цифровые миры для тестирования ИИ-агентов?

ИИ-агент (agent) это программа, которая не просто отвечает на вопрос, а самостоятельно выполняет цепочку действий: бронирует поездку, анализирует финансовый отчёт, пишет и тестирует код. Проблема в том, что высокий балл на стандартном бенчмарке не доказывает, что такой агент справится с реальной задачей. Он может срезать углы, пропустить шаг и выдать формально «готовый», но неверный результат.

Patronus AI решает эту проблему через так называемые «цифровые модели мира». Компания создаёт точные копии сайтов и внутренних корпоративных систем. Внутри этих копий агент проходит стресс-тесты с помощью обучения с подкреплением (reinforcement learning): за правильное выполнение задачи его поощряют, за ошибку штрафуют.

Основатели сравнивают подход с тем, как Waymo тренировала беспилотные автомобили: сначала синтетический мир с редкими опасными ситуациями (ребёнок выбежал на дорогу, ледяной дождь), и только потом реальная трасса. С ИИ-агентами сложность другая: они склонны находить «хаки», обходные пути, и формально закрывать задачу, не выполнив её по существу.

Что Patronus AI делает сейчас и куда движется?

Пока компания сосредоточена на двух областях: разработка ПО и финансы. По словам сооснователя Ананда Каннаппана, это задачи, результат которых можно немедленно проверить. Но планы шире: Каннаппан говорит о задачах, которые трудно или невозможно верифицировать автоматически, и о сценариях, где агент работает 10 часов, 10 дней или 10 недель подряд.

Клиентская база впечатляет по охвату: по словам Гленна Соломона, управляющего директора Notable Capital, клиентами стали практически все ведущие лаборатории ИИ и множество стартапов. Именно этот спрос, который Соломон называет «почти ненасытным», и обеспечил пятнадцатикратный рост выручки за год.

Patronus отлично выявляет хаки и следит за тем, чтобы модели отвечали за результат. : Гленн Соломон, управляющий директор Notable Capital

В отличие от компаний вроде Mercor и Surge, которые привлекают людей для оценки моделей, Patronus проверяет поведение агентов полностью без участия человека. Основной конкурент, по оценке самой компании, это внутренние команды ИИ-лабораторий, которые уже строят собственные системы оценки.

Почему 50 миллионов на тестирование важнее, чем очередной раунд в «ещё одну модель»?

Рынок ИИ-агентов растёт быстрее, чем инфраструктура доверия к ним. Компании готовы отдать агенту финансовый анализ или код, но не готовы нести репутационные и финансовые потери от ошибок. Тот, кто предложит надёжный способ проверки агента до его запуска в продакшн, получает доступ ко всей цепочке: от лаборатории до конечного бизнеса.

Раунд Patronus AI показывает, что инвесторы ставят не только на создание моделей, но и на слой контроля качества. Участие Datadog, компании, которая зарабатывает на мониторинге обычного ПО, сигнализирует: тестирование ИИ-агентов становится такой же стандартной частью инфраструктуры, как мониторинг серверов.

Почему это важно

Если ИИ-агент бронирует, считает, пишет код за вас, вопрос «а он точно сделал правильно?» становится критичным. Patronus AI строит инфраструктуру для ответа на этот вопрос до того, как агент доберётся до ваших данных. Для авторов контента и предпринимателей это означает: агенты в сервисах, которыми вы пользуетесь, будут проходить проверку жёстче, а ошибок на выходе должно стать меньше.

Что делать с этим прямо сейчас, по ролям

Авторам Дзена и копирайтерам. Если вы уже используете ИИ-агентов для исследования тем, генерации черновиков или работы с данными, помните: агент может «срезать углы» и выдать формально готовый, но фактически неточный результат. Проверяйте каждый шаг цепочки, а не только финальный текст.

Маркетологам. Появление стандартизированного тестирования ИИ-агентов означает, что скоро при выборе сервиса можно будет спрашивать: «Ваш агент прошёл независимую верификацию?» Это новый критерий оценки инструментов.

Предпринимателям в РФ и СНГ. Patronus AI пока работает с западными лабораториями и системами. Для российского финтеха и разработки ПО, где стандартные англоязычные бенчмарки не учитывают локальные сценарии (русскоязычные интерфейсы, местные платёжные системы, специфику документооборота), подход с симуляцией цифровых миров особенно ценен: он позволяет создавать тестовые среды именно под ваши процессы. Из инструментов, доступных в РФ, YandexGPT и GigaChat уже используют внутренние системы оценки, но публичных аналогов Patronus на российском рынке пока нет.

Мнение редакции dzen.guru

На мой взгляд, самое интересное здесь не сумма раунда, а модель бизнеса. Patronus не делает ещё один чат-бот и не обучает ещё одну модель. Компания продаёт уверенность: «ваш агент работает правильно». В мире, где каждый сервис добавляет ИИ-агента, спрос на такую уверенность будет расти пропорционально числу агентов. Пятнадцатикратный рост выручки за год подтверждает, что лаборатории готовы платить за это уже сейчас. Оговорка: пока речь о верифицируемых задачах (код, финансы). Как тестировать агента, который пишет маркетинговую стратегию или редактирует текст, вопрос открытый, и сам Каннаппан это признаёт.

Для тех, кто работает с ИИ-агентами каждый день, практический вывод прост: не доверяйте агенту результат без проверки промежуточных шагов. Если агент «срезал угол», вы узнаете об этом не из его отчёта, а из последствий.

Поделиться:Telegram VK

Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Открытые модели кодирования Ornith 1.0 сами пишут себе обвязку: 82.4 на SWE-Bench

Компания DeepReinforce выпустила Ornith-1.0, семейство открытых моделей кодирования, которые сами создают себе инструменты вместо использования готовых…

26 июня в 12:30 МСК5 мин

Macy's встроила ИИ в розницу от поиска до логистики: пошаговая модель для любого ритейлера

Розничная торговля переживает тихую, но глубокую перестройку: крупные сети вроде американской Macy's переходят от точечных экспериментов с нейросетями к тому,…

26 июня в 11:45 МСК5 мин

Alibaba скопировала модель Claude

Alibaba, по данным Anthropic, провела крупнейшую атаку на Claude: 28,8 млн запросов через 25 000 поддельных аккаунтов за полтора месяца, чтобы скопировать…

26 июня в 11:15 МСК5 мин