Игорь Градов
Игорь Градов
5 мин
ai

Открытые модели кодирования Ornith 1.0 сами пишут себе обвязку: 82.4 на SWE-Bench

Компания DeepReinforce выпустила Ornith-1.0, семейство открытых моделей кодирования, которые сами создают себе инструменты вместо использования готовых шаблонов, и раздала всё под лицензией MIT на Hugging Face.

Открытые модели кодирования Ornith 1.0 сами пишут себе обвязку: 82.4 на SWE-Bench
Почему это важно

Открытые модели кодирования до сих пор работали только внутри заранее написанных человеком обвязок. Ornith-1.0 учится писать такую обвязку сама, и это первый опенсорс-проект с подобным подходом, доступный для локального развёртывания.

Команда DeepReinforce опубликовала результаты на нескольких отраслевых бенчмарках и заявила о лучших показателях среди открытых моделей сопоставимого размера. Модели построены поверх предобученных Gemma 4 и Qwen 3.5, выпущены в четырёх размерах и уже доступны для скачивания. Релиз зафиксировал интересный сдвиг: вместо гонки «кто больше» авторы сосредоточились на том, как модель организует собственную работу.

Показатель Значение Источник
Количество моделей в семействе 4 (9B Dense, 31B Dense, 35B MoE, 397B MoE) DeepReinforce
Лицензия MIT DeepReinforce
Базовые модели Gemma 4, Qwen 3.5 DeepReinforce
Ornith-1.0-397B, Terminal-Bench 2.1 77.5 DeepReinforce
Ornith-1.0-397B, SWE-Bench Verified 82.4 DeepReinforce
Ornith-1.0-35B, Terminal-Bench 2.1 64.2 DeepReinforce
Ornith-1.0-9B, Terminal-Bench 2.1 43.1 DeepReinforce
Ornith-1.0-9B, SWE-Bench Verified 69.4 DeepReinforce
Размер 9B-модели в bf16 около 19 ГБ DeepReinforce

Что такое скаффолд и почему он здесь главный герой?

Скаффолд (scaffold, «строительные леса») в контексте ИИ-агентов (программ, которые сами выполняют последовательность шагов) означает обвязку: память, набор инструментов, обработку ошибок и логику координации. Обычно разработчики пишут такую обвязку вручную для каждого типа задач.

Ornith-1.0 делает иначе. Во время обучения с подкреплением (reinforcement learning, когда модель получает «награду» за верные результаты) скаффолд меняется вместе с самой моделью. Процесс идёт в два шага:

  • Модель читает задачу и свой текущий скаффолд, затем предлагает улучшенную версию обвязки.
  • С новой обвязкой модель генерирует решение, и «награда» за результат возвращается в оба шага.

Так модель учится не только писать код, но и организовывать свою работу. Удачные стратегии закрепляются автоматически, без ручного проектирования.

Как авторы защитились от читерства?

Если модель сама пишет себе обвязку, она может «сжульничать»: подсмотреть ответы в тестовых файлах или скопировать эталонное решение из окружения. DeepReinforce описывает три уровня защиты:

  • Неизменяемая граница доверия. Среда, набор инструментов и изоляция тестов находятся вне досягаемости модели. Модель меняет только свою внутреннюю политику.
  • Детерминированный монитор. Чтение запрещённых путей или редактирование скриптов проверки обнуляет награду. Такие траектории исключаются из обучения.
  • Замороженная языковая модель как судья. Отдельная неизменяемая модель выступает в роли «вето» поверх основного верификатора.

Трёхуровневая защита выглядит продуманной, хотя авторы не раскрыли, сколько именно попыток обмана было заблокировано в ходе обучения.

Что показали бенчмарки?

Флагманская модель Ornith-1.0-397B набрала 82.4 на SWE-Bench Verified (тест на реальных задачах из GitHub-репозиториев). Среди перечисленных моделей выше только закрытая Claude Opus 4.8 с результатом 87.6, по данным DeepReinforce.

На Terminal-Bench 2.1 картина сложнее:

  • Ornith-1.0-397B (77.5) обогнала Claude Opus 4.7 (70.3).
  • Но уступила Claude Opus 4.8 (85.0) и закрытой GLM-5.2-744B (81.0), которая почти вдвое крупнее.

Заявление «лучшая среди открытых моделей» относится к моделям сопоставимого размера. Малые версии тоже показали себя: 35B-модель (MoE, mixture-of-experts, «смесь экспертов», когда на каждый токен активируется только часть параметров, здесь около 3 млрд из 35 млрд) набрала 64.2 на Terminal-Bench 2.1, обойдя Qwen 3.5-397B с результатом 53.5.

Как это читать

Все цифры бенчмарков взяты из отчёта самой DeepReinforce, независимые воспроизведения пока не опубликованы. Заявление «лучшая среди открытых» ограничено моделями сопоставимого размера и двумя конкретными бенчмарками. Claude Opus 4.8 и GLM-5.2-744B, обе закрытые, показали результаты выше. Модель 9B требует GPU с 80 ГБ памяти для полноценного запуска в bf16, хотя доступны сжатые форматы FP8 и GGUF.

Что делать с этим прямо сейчас?

Разработчику в РФ и СНГ. Лицензия MIT позволяет использовать модель в коммерческих проектах без ограничений. Модель 9B (около 19 ГБ) запускается на одном GPU, совместима с vLLM, SGLang и Transformers, поддерживает OpenAI-совместимый API. Это значит, что любой фреймворк, работающий с OpenAI, подключается без переписывания кода. Для команд, которым нельзя отправлять код на внешние серверы, локальное развёртывание снимает вопрос утечки данных.

Автору Дзена и контент-маркетологу. Напрямую писать статьи эта модель не предназначена. Но если вы ведёте технический блог или канал про разработку, Ornith-1.0 может стать рабочим инструментом для генерации примеров кода и автоматизации тестов, результаты которых потом становятся контентом.

Предпринимателю. Четыре размера модели закрывают разные бюджеты: от 9B для прототипов на одном сервере до 397B для полноценного внутреннего ИИ-агента по работе с кодовой базой. Из доступных в РФ альтернатив для задач кодирования можно рассмотреть модели семейства Qwen (на которых, кстати, частично построен сам Ornith) и GigaCode от Сбера, хотя функция самообучающегося скаффолда у них отсутствует.

Мнение редакции dzen.guru

Самое ценное здесь не бенчмарки, а сам подход. Модель, которая учится организовывать собственную работу, а не просто выдаёт ответ внутри чужой обвязки, это качественно другая архитектура. Для российского рынка MIT-лицензия и возможность локального запуска делают Ornith-1.0 практичным вариантом: не нужен VPN, не нужна подписка, код остаётся внутри контура. Я бы начал с 9B-версии в формате GGUF на одном сервере и проверил на реальных задачах рефакторинга, прежде чем масштабировать. Заявленные цифры бенчмарков выглядят сильно, но пока их не воспроизвели независимые команды, относиться к ним стоит как к заявке, а не как к факту.

Открытые модели кодирования с самообучающимся скаффолдом пока редкость, и именно это делает Ornith-1.0 проектом, за которым стоит следить, особенно если вы строите внутренние инструменты разработки и не готовы зависеть от закрытых API.

По данным DeepReinforce / MarkTechPost

Поделиться:TelegramVK
Игорь Градов
Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Комментарии

Читайте также

Macy's встроила ИИ в розницу от поиска до логистики: пошаговая модель для любого ритейлера
ai

Macy's встроила ИИ в розницу от поиска до логистики: пошаговая модель для любого ритейлера

Розничная торговля переживает тихую, но глубокую перестройку: крупные сети вроде американской Macy's переходят от точечных экспериментов с нейросетями к тому,…

5 мин
ai

Alibaba скопировала модель Claude

Alibaba, по данным Anthropic, провела крупнейшую атаку на Claude: 28,8 млн запросов через 25 000 поддельных аккаунтов за полтора месяца, чтобы скопировать…

5 мин
Amazon вложит $13 млрд в инфраструктуру Индии: инвестиции в искусственный интеллект достигли $48 млрд
ai

Amazon вложит $13 млрд в инфраструктуру Индии: инвестиции в искусственный интеллект достигли $48 млрд

Amazon в четверг объявила о дополнительных инвестициях в размере 13 млрд долларов в расширение ИИ-инфраструктуры и облачных мощностей в Индии до 2030 года,…

4 мин