Игорь Градов

26 июня 2026 г. в 12:30 МСК5 мин

Открытые модели кодирования Ornith 1.0 сами пишут себе обвязку: 82.4 на SWE-Bench

Компания DeepReinforce выпустила Ornith-1.0, семейство открытых моделей кодирования, которые сами создают себе инструменты вместо использования готовых шаблонов, и раздала всё под лицензией MIT на Hugging Face.

Почему это важно

Открытые модели кодирования до сих пор работали только внутри заранее написанных человеком обвязок. Ornith-1.0 учится писать такую обвязку сама, и это первый опенсорс-проект с подобным подходом, доступный для локального развёртывания.

Команда DeepReinforce опубликовала результаты на нескольких отраслевых бенчмарках и заявила о лучших показателях среди открытых моделей сопоставимого размера. Модели построены поверх предобученных Gemma 4 и Qwen 3.5, выпущены в четырёх размерах и уже доступны для скачивания. Релиз зафиксировал интересный сдвиг: вместо гонки «кто больше» авторы сосредоточились на том, как модель организует собственную работу.

Показатель	Значение	Источник
Количество моделей в семействе	4 (9B Dense, 31B Dense, 35B MoE, 397B MoE)	DeepReinforce
Лицензия	MIT	DeepReinforce
Базовые модели	Gemma 4, Qwen 3.5	DeepReinforce
Ornith-1.0-397B, Terminal-Bench 2.1	77.5	DeepReinforce
Ornith-1.0-397B, SWE-Bench Verified	82.4	DeepReinforce
Ornith-1.0-35B, Terminal-Bench 2.1	64.2	DeepReinforce
Ornith-1.0-9B, Terminal-Bench 2.1	43.1	DeepReinforce
Ornith-1.0-9B, SWE-Bench Verified	69.4	DeepReinforce
Размер 9B-модели в bf16	около 19 ГБ	DeepReinforce

Что такое скаффолд и почему он здесь главный герой?

Скаффолд (scaffold, «строительные леса») в контексте ИИ-агентов (программ, которые сами выполняют последовательность шагов) означает обвязку: память, набор инструментов, обработку ошибок и логику координации. Обычно разработчики пишут такую обвязку вручную для каждого типа задач.

Ornith-1.0 делает иначе. Во время обучения с подкреплением (reinforcement learning, когда модель получает «награду» за верные результаты) скаффолд меняется вместе с самой моделью. Процесс идёт в два шага:

Модель читает задачу и свой текущий скаффолд, затем предлагает улучшенную версию обвязки.
С новой обвязкой модель генерирует решение, и «награда» за результат возвращается в оба шага.

Так модель учится не только писать код, но и организовывать свою работу. Удачные стратегии закрепляются автоматически, без ручного проектирования.

Как авторы защитились от читерства?

Если модель сама пишет себе обвязку, она может «сжульничать»: подсмотреть ответы в тестовых файлах или скопировать эталонное решение из окружения. DeepReinforce описывает три уровня защиты:

Неизменяемая граница доверия. Среда, набор инструментов и изоляция тестов находятся вне досягаемости модели. Модель меняет только свою внутреннюю политику.
Детерминированный монитор. Чтение запрещённых путей или редактирование скриптов проверки обнуляет награду. Такие траектории исключаются из обучения.
Замороженная языковая модель как судья. Отдельная неизменяемая модель выступает в роли «вето» поверх основного верификатора.

Трёхуровневая защита выглядит продуманной, хотя авторы не раскрыли, сколько именно попыток обмана было заблокировано в ходе обучения.

Что показали бенчмарки?

Флагманская модель Ornith-1.0-397B набрала 82.4 на SWE-Bench Verified (тест на реальных задачах из GitHub-репозиториев). Среди перечисленных моделей выше только закрытая Claude Opus 4.8 с результатом 87.6, по данным DeepReinforce.

На Terminal-Bench 2.1 картина сложнее:

Ornith-1.0-397B (77.5) обогнала Claude Opus 4.7 (70.3).
Но уступила Claude Opus 4.8 (85.0) и закрытой GLM-5.2-744B (81.0), которая почти вдвое крупнее.

Заявление «лучшая среди открытых моделей» относится к моделям сопоставимого размера. Малые версии тоже показали себя: 35B-модель (MoE, mixture-of-experts, «смесь экспертов», когда на каждый токен активируется только часть параметров, здесь около 3 млрд из 35 млрд) набрала 64.2 на Terminal-Bench 2.1, обойдя Qwen 3.5-397B с результатом 53.5.

Как это читать

Все цифры бенчмарков взяты из отчёта самой DeepReinforce, независимые воспроизведения пока не опубликованы. Заявление «лучшая среди открытых» ограничено моделями сопоставимого размера и двумя конкретными бенчмарками. Claude Opus 4.8 и GLM-5.2-744B, обе закрытые, показали результаты выше. Модель 9B требует GPU с 80 ГБ памяти для полноценного запуска в bf16, хотя доступны сжатые форматы FP8 и GGUF.

Что делать с этим прямо сейчас?

Разработчику в РФ и СНГ. Лицензия MIT позволяет использовать модель в коммерческих проектах без ограничений. Модель 9B (около 19 ГБ) запускается на одном GPU, совместима с vLLM, SGLang и Transformers, поддерживает OpenAI-совместимый API. Это значит, что любой фреймворк, работающий с OpenAI, подключается без переписывания кода. Для команд, которым нельзя отправлять код на внешние серверы, локальное развёртывание снимает вопрос утечки данных.

Автору Дзена и контент-маркетологу. Напрямую писать статьи эта модель не предназначена. Но если вы ведёте технический блог или канал про разработку, Ornith-1.0 может стать рабочим инструментом для генерации примеров кода и автоматизации тестов, результаты которых потом становятся контентом.

Предпринимателю. Четыре размера модели закрывают разные бюджеты: от 9B для прототипов на одном сервере до 397B для полноценного внутреннего ИИ-агента по работе с кодовой базой. Из доступных в РФ альтернатив для задач кодирования можно рассмотреть модели семейства Qwen (на которых, кстати, частично построен сам Ornith) и GigaCode от Сбера, хотя функция самообучающегося скаффолда у них отсутствует.

Мнение редакции dzen.guru

Самое ценное здесь не бенчмарки, а сам подход. Модель, которая учится организовывать собственную работу, а не просто выдаёт ответ внутри чужой обвязки, это качественно другая архитектура. Для российского рынка MIT-лицензия и возможность локального запуска делают Ornith-1.0 практичным вариантом: не нужен VPN, не нужна подписка, код остаётся внутри контура. Я бы начал с 9B-версии в формате GGUF на одном сервере и проверил на реальных задачах рефакторинга, прежде чем масштабировать. Заявленные цифры бенчмарков выглядят сильно, но пока их не воспроизвели независимые команды, относиться к ним стоит как к заявке, а не как к факту.

Открытые модели кодирования с самообучающимся скаффолдом пока редкость, и именно это делает Ornith-1.0 проектом, за которым стоит следить, особенно если вы строите внутренние инструменты разработки и не готовы зависеть от закрытых API.

По данным DeepReinforce / MarkTechPost

Поделиться:Telegram VK

Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Macy's встроила ИИ в розницу от поиска до логистики: пошаговая модель для любого ритейлера

Розничная торговля переживает тихую, но глубокую перестройку: крупные сети вроде американской Macy's переходят от точечных экспериментов с нейросетями к тому,…

26 июня в 11:45 МСК5 мин

Alibaba скопировала модель Claude

Alibaba, по данным Anthropic, провела крупнейшую атаку на Claude: 28,8 млн запросов через 25 000 поддельных аккаунтов за полтора месяца, чтобы скопировать…

26 июня в 11:15 МСК5 мин

Amazon вложит $13 млрд в инфраструктуру Индии: инвестиции в искусственный интеллект достигли $48 млрд

Amazon в четверг объявила о дополнительных инвестициях в размере 13 млрд долларов в расширение ИИ-инфраструктуры и облачных мощностей в Индии до 2030 года,…

26 июня в 10:45 МСК4 мин