Открытые модели кодирования Ornith 1.0 сами пишут себе обвязку: 82.4 на SWE-Bench
Компания DeepReinforce выпустила Ornith-1.0, семейство открытых моделей кодирования, которые сами создают себе инструменты вместо использования готовых шаблонов, и раздала всё под лицензией MIT на Hugging Face.

Открытые модели кодирования до сих пор работали только внутри заранее написанных человеком обвязок. Ornith-1.0 учится писать такую обвязку сама, и это первый опенсорс-проект с подобным подходом, доступный для локального развёртывания.
Команда DeepReinforce опубликовала результаты на нескольких отраслевых бенчмарках и заявила о лучших показателях среди открытых моделей сопоставимого размера. Модели построены поверх предобученных Gemma 4 и Qwen 3.5, выпущены в четырёх размерах и уже доступны для скачивания. Релиз зафиксировал интересный сдвиг: вместо гонки «кто больше» авторы сосредоточились на том, как модель организует собственную работу.
| Показатель | Значение | Источник |
|---|---|---|
| Количество моделей в семействе | 4 (9B Dense, 31B Dense, 35B MoE, 397B MoE) | DeepReinforce |
| Лицензия | MIT | DeepReinforce |
| Базовые модели | Gemma 4, Qwen 3.5 | DeepReinforce |
| Ornith-1.0-397B, Terminal-Bench 2.1 | 77.5 | DeepReinforce |
| Ornith-1.0-397B, SWE-Bench Verified | 82.4 | DeepReinforce |
| Ornith-1.0-35B, Terminal-Bench 2.1 | 64.2 | DeepReinforce |
| Ornith-1.0-9B, Terminal-Bench 2.1 | 43.1 | DeepReinforce |
| Ornith-1.0-9B, SWE-Bench Verified | 69.4 | DeepReinforce |
| Размер 9B-модели в bf16 | около 19 ГБ | DeepReinforce |
Что такое скаффолд и почему он здесь главный герой?
Скаффолд (scaffold, «строительные леса») в контексте ИИ-агентов (программ, которые сами выполняют последовательность шагов) означает обвязку: память, набор инструментов, обработку ошибок и логику координации. Обычно разработчики пишут такую обвязку вручную для каждого типа задач.
Ornith-1.0 делает иначе. Во время обучения с подкреплением (reinforcement learning, когда модель получает «награду» за верные результаты) скаффолд меняется вместе с самой моделью. Процесс идёт в два шага:
- Модель читает задачу и свой текущий скаффолд, затем предлагает улучшенную версию обвязки.
- С новой обвязкой модель генерирует решение, и «награда» за результат возвращается в оба шага.
Так модель учится не только писать код, но и организовывать свою работу. Удачные стратегии закрепляются автоматически, без ручного проектирования.
Как авторы защитились от читерства?
Если модель сама пишет себе обвязку, она может «сжульничать»: подсмотреть ответы в тестовых файлах или скопировать эталонное решение из окружения. DeepReinforce описывает три уровня защиты:
- Неизменяемая граница доверия. Среда, набор инструментов и изоляция тестов находятся вне досягаемости модели. Модель меняет только свою внутреннюю политику.
- Детерминированный монитор. Чтение запрещённых путей или редактирование скриптов проверки обнуляет награду. Такие траектории исключаются из обучения.
- Замороженная языковая модель как судья. Отдельная неизменяемая модель выступает в роли «вето» поверх основного верификатора.
Трёхуровневая защита выглядит продуманной, хотя авторы не раскрыли, сколько именно попыток обмана было заблокировано в ходе обучения.
Что показали бенчмарки?
Флагманская модель Ornith-1.0-397B набрала 82.4 на SWE-Bench Verified (тест на реальных задачах из GitHub-репозиториев). Среди перечисленных моделей выше только закрытая Claude Opus 4.8 с результатом 87.6, по данным DeepReinforce.
На Terminal-Bench 2.1 картина сложнее:
- Ornith-1.0-397B (77.5) обогнала Claude Opus 4.7 (70.3).
- Но уступила Claude Opus 4.8 (85.0) и закрытой GLM-5.2-744B (81.0), которая почти вдвое крупнее.
Заявление «лучшая среди открытых моделей» относится к моделям сопоставимого размера. Малые версии тоже показали себя: 35B-модель (MoE, mixture-of-experts, «смесь экспертов», когда на каждый токен активируется только часть параметров, здесь около 3 млрд из 35 млрд) набрала 64.2 на Terminal-Bench 2.1, обойдя Qwen 3.5-397B с результатом 53.5.
Все цифры бенчмарков взяты из отчёта самой DeepReinforce, независимые воспроизведения пока не опубликованы. Заявление «лучшая среди открытых» ограничено моделями сопоставимого размера и двумя конкретными бенчмарками. Claude Opus 4.8 и GLM-5.2-744B, обе закрытые, показали результаты выше. Модель 9B требует GPU с 80 ГБ памяти для полноценного запуска в bf16, хотя доступны сжатые форматы FP8 и GGUF.
Что делать с этим прямо сейчас?
Разработчику в РФ и СНГ. Лицензия MIT позволяет использовать модель в коммерческих проектах без ограничений. Модель 9B (около 19 ГБ) запускается на одном GPU, совместима с vLLM, SGLang и Transformers, поддерживает OpenAI-совместимый API. Это значит, что любой фреймворк, работающий с OpenAI, подключается без переписывания кода. Для команд, которым нельзя отправлять код на внешние серверы, локальное развёртывание снимает вопрос утечки данных.
Автору Дзена и контент-маркетологу. Напрямую писать статьи эта модель не предназначена. Но если вы ведёте технический блог или канал про разработку, Ornith-1.0 может стать рабочим инструментом для генерации примеров кода и автоматизации тестов, результаты которых потом становятся контентом.
Предпринимателю. Четыре размера модели закрывают разные бюджеты: от 9B для прототипов на одном сервере до 397B для полноценного внутреннего ИИ-агента по работе с кодовой базой. Из доступных в РФ альтернатив для задач кодирования можно рассмотреть модели семейства Qwen (на которых, кстати, частично построен сам Ornith) и GigaCode от Сбера, хотя функция самообучающегося скаффолда у них отсутствует.
Самое ценное здесь не бенчмарки, а сам подход. Модель, которая учится организовывать собственную работу, а не просто выдаёт ответ внутри чужой обвязки, это качественно другая архитектура. Для российского рынка MIT-лицензия и возможность локального запуска делают Ornith-1.0 практичным вариантом: не нужен VPN, не нужна подписка, код остаётся внутри контура. Я бы начал с 9B-версии в формате GGUF на одном сервере и проверил на реальных задачах рефакторинга, прежде чем масштабировать. Заявленные цифры бенчмарков выглядят сильно, но пока их не воспроизвели независимые команды, относиться к ним стоит как к заявке, а не как к факту.
Открытые модели кодирования с самообучающимся скаффолдом пока редкость, и именно это делает Ornith-1.0 проектом, за которым стоит следить, особенно если вы строите внутренние инструменты разработки и не готовы зависеть от закрытых API.
По данным DeepReinforce / MarkTechPost

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».
Читайте также

Macy's встроила ИИ в розницу от поиска до логистики: пошаговая модель для любого ритейлера
Розничная торговля переживает тихую, но глубокую перестройку: крупные сети вроде американской Macy's переходят от точечных экспериментов с нейросетями к тому,…
Alibaba скопировала модель Claude
Alibaba, по данным Anthropic, провела крупнейшую атаку на Claude: 28,8 млн запросов через 25 000 поддельных аккаунтов за полтора месяца, чтобы скопировать…

Amazon вложит $13 млрд в инфраструктуру Индии: инвестиции в искусственный интеллект достигли $48 млрд
Amazon в четверг объявила о дополнительных инвестициях в размере 13 млрд долларов в расширение ИИ-инфраструктуры и облачных мощностей в Индии до 2030 года,…
Комментарии