Microsoft открыла ASSERT: тестирование нейросетей без кода и вручную написанных сценариев
Microsoft второго июня открыла ASSERT, бесплатный фреймворк для тестирования нейросетей, который превращает обычное текстовое описание правил компании в готовый набор проверок поведения ИИ.

Впервые появился открытый инструмент, позволяющий без написания кода задать корпоративные политики обычным языком и автоматически получить тесты, проверяющие, соблюдает ли ваш ИИ эти правила.
До сих пор тестирование нейросетей на уровне конкретного продукта требовало ручной работы: разработчик сам придумывал сценарии, сам оценивал результат. Универсальные бенчмарки вроде HELM от Стэнфорда или AILuminate от MLCommons измеряют общие свойства моделей, но не проверяют, как ИИ ведёт себя внутри вашего приложения с вашими данными и вашими ограничениями. Об этом сообщает TechCrunch.
| Параметр | Значение |
|---|---|
| Кто | Microsoft |
| Продукт | ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing) |
| Тип | Открытая модель (open source), бесплатный фреймворк |
| Дата анонса | 2 июня 2026 |
Что умеет ASSERT?
ASSERT расшифровывается как Adaptive Spec-driven Scoring for Evaluation and Regression Testing, адаптивная оценка поведения ИИ на основе спецификаций. Работает это так: вы описываете обычным языком, что ваш ИИ должен и чего не должен делать, а фреймворк сам делает всё остальное.
Конкретные шаги, которые выполняет инструмент:
- Принимает текстовое описание политик и ожидаемого поведения.
- Разбивает описание на структурированный набор допустимых и недопустимых действий.
- Генерирует проблемные сценарии и тестовые кейсы.
- Прогоняет их на целевой системе.
- Выставляет оценки и записывает каждый шаг, включая промежуточные действия и вызовы инструментов, чтобы разработчик видел, где именно произошёл сбой.
Разработчик может дополнительно указать контекст системы, доступные инструменты и ограничения, чтобы тесты точнее соответствовали реальной среде.
Пример из документации Microsoft
Допустим, вы построили ИИ-агента (программу, которая сама выполняет задачи) для работы с документами. Вы задаёте три правила: агент не должен отправлять письма за пределы компании, конфиденциальную информацию показывает только топ-менеджерам, а ответы даёт краткие и с учётом предыдущего контекста. ASSERT берёт эти правила и автоматически создаёт тесты, которые проверяют их соблюдение на постоянной основе.
Релиз ASSERT совпадает с заметным сдвигом в индустрии: по мере роста возможностей моделей исследователи всё больше фокусируются на воспроизводимом тестировании. Стэнфордский HELM, AILuminate от MLCommons и группы оценки вроде METR выпускают бенчмарки для измерения поведения моделей в разных условиях. Но все они работают на уровне общих свойств, а ASSERT закрывает другую задачу: проверку на уровне конкретного продукта.
Оценки абсолютно критичны для принятия хороших решений. Если вы не понимаете поведение ИИ-системы, очень сложно понять, соответствует ли она стандартам вашей организации. Мы обнаружили: если вы хотите получить надёжную систему, нужно оценивать гораздо больше параметров, специфичных для конкретного приложения. : Сара Бёрд, директор по продукту Responsible AI, Microsoft
По словам Сары Бёрд, ASSERT можно использовать на трёх этапах: при разработке системы, после развёртывания и для непрерывного мониторинга.
Почему это меняет подход к тестированию нейросетей?
Ключевой сдвиг в том, что тестирование нейросетей перестаёт требовать написания кода для каждого сценария. Раньше, чтобы проверить, не разглашает ли чат-бот конфиденциальные данные, нужно было вручную составлять десятки промптов (текстовых запросов к модели) и оценивать ответы. Теперь описание политики на обычном языке автоматически превращается в набор тестов.
Для индустрии это означает снижение порога входа. Компании без крупных ML-команд получают инструмент, который раньше был доступен только большим лабораториям. А то, что фреймворк открытый, позволяет адаптировать его под любой контекст, включая локальные языки и специфику бизнеса.
Что делать с этим прямо сейчас, по ролям
Разработчикам и техническим командам в РФ и СНГ. ASSERT поможет тестировать поведение ИИ-систем под локальный контекст компании. Например, проверить, что чат-бот не разглашает конфиденциальные данные или соблюдает внутренние политики безопасности. Фреймворк открытый, значит, его можно развернуть на своей инфраструктуре и адаптировать правила под российское законодательство о персональных данных.
Авторам Дзена и контент-маркетологам. Если вы используете ИИ для генерации текстов, ASSERT даёт способ формализовать требования: «не упоминай конкурентов», «не давай медицинских рекомендаций», «отвечай только на русском». Пока инструмент рассчитан на разработчиков, но сам принцип описал правила текстом, получил автоматическую проверку уже скоро дойдёт до пользовательских продуктов.
Предпринимателям. Если вы внедряете ИИ в клиентский сервис, появился способ регулярно проверять, что система не отклоняется от ваших стандартов. Из доступных в РФ аналогов похожего уровня автоматизации тестирования пока нет: YandexGPT и GigaChat предоставляют инструменты разработки, но не фреймворк для автоматической проверки политик.
Я вижу в ASSERT не просто технический инструмент, а попытку Microsoft закрепить стандарт: тестирование нейросетей должно идти не по абстрактным бенчмаркам, а по конкретным бизнес-правилам. Для российских компаний, которые строят ИИ-решения, это полезный шаблон, даже если сам фреймворк придётся дорабатывать под локальные задачи. Оговорка: инструмент только вышел, документации пока минимум, и неизвестно, насколько стабильно он работает с моделями за пределами экосистемы Microsoft.
ASSERT генерирует тесты с помощью ИИ, а значит, сами тесты могут содержать галлюцинации (случаи, когда модель уверенно выдумывает то, чего не было). Результаты тестирования стоит проверять вручную, особенно на первых этапах. Кроме того, Microsoft не уточнила, какие модели нужны для работы фреймворка и какие ресурсы он требует.
Если вы работаете с ИИ в продукте, скачайте ASSERT и опишите пять главных правил вашей системы обычным текстом. Первый прогон покажет, где ваш ИИ ведёт себя не так, как вы думали, и это будет полезнее любого общего бенчмарка.
По материалам TechCrunch AI

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».
Читайте также

Gemini Spark: первый ИИ-агент Google работает в фоне, но стоит $100 в месяц
Google Gemini Spark берёт на себя ваши дела, но пока работает только в США, только на английском и стоит почти 100 долларов в месяц, а каждый результат всё…

Google добавила защиту от спама и дипфейк-звонков: как включить на любом Android 12+
Google добавила в Android защиту от поддельных звонков, которая распознаёт дипфейки (deepfake, подделку голоса нейросетью) прямо во время разговора и работает…

Microsoft открыла стандарт контроля ИИ-агентов: один файл на девять фреймворков
Microsoft открыла спецификацию Agent Control Specification (ACS), набор правил в одном файле, который говорит ИИ-агенту, что ему можно делать, что нельзя и…
Комментарии