Mellum2 новая модель JetBrains с архитектурой MoE

JetBrains выпустила Mellum2, открытую 12-миллиардную модель на архитектуре Mixture of Experts (MoE, «смесь экспертов», когда на каждый запрос работает не вся сеть, а только нужная часть), которая обрабатывает текст и код вдвое быстрее аналогов такого же размера, активируя лишь 2,5 миллиарда параметров из 12.

Почему это важно

Впервые крупный вендор IDE выпускает собственную открытую MoE-модель, заточенную именно под задачи разработки: маршрутизацию запросов, сжатие контекста и работу ИИ-агентов внутри редактора кода, и делает это под свободной лицензией Apache 2.0, что снимает барьер для локального развёртывания на любом сервере.

Mellum2 продолжает линейку JetBrains Mellum, начинавшуюся как модель автодополнения кода. Новая версия расширена до обработки естественного языка и задач программной инженерии, но намеренно не включает мультимодальные (работа с картинками, звуком) возможности. Специализация позволила сохранить компактность и скорость инференса (процесс, при котором модель генерирует ответ). Источник технического отчёта с архитектурой, бенчмарками и методологией оценки опубликован на arxiv.org.

Показатель	Значение	Источник
Общее число параметров	12 млрд	HuggingFace, блог JetBrains
Активные параметры на токен (токен, минимальная единица текста для модели)	2,5 млрд	HuggingFace, блог JetBrains
Скорость инференса относительно моделей того же размера	более чем в 2 раза быстрее	HuggingFace, блог JetBrains
Архитектура	Mixture of Experts (MoE)	HuggingFace, блог JetBrains
Лицензия	Apache 2.0	HuggingFace, блог JetBrains
Обучение	с нуля, на естественном языке и коде	HuggingFace, блог JetBrains

Что именно измеряли и как устроена модель?

Архитектура Mixture of Experts устроена так: внутри модели живут несколько «экспертных» блоков, но на каждый входящий токен активируется только часть из них. Представьте офис, где 12 специалистов сидят за столами, но на конкретный вопрос клиента отвечают только двое-трое профильных, остальные не тратят время. Это даёт полную «ёмкость» знаний всей сети при затратах вычислений лишь на малую долю параметров.

JetBrains обучила Mellum2 с нуля на данных естественного языка и кода. В техническом отчёте команда оценивала модель на бенчмарках генерации кода, рассуждений, научных задач и математики, сравнивая с открытыми моделями сопоставимого размера.

Модель намеренно не обучали на изображениях, аудио и видео. Это осознанный выбор: узкая специализация на тексте и коде позволяет держать размер и скорость на уровне, пригодном для продакшн-нагрузок в реальном времени.

Что обнаружили?

2,5 млрд активных параметров из 12 млрд. На каждый токен модель задействует примерно пятую часть своих весов, что резко снижает требования к вычислительным ресурсам при генерации.
Более чем двукратное ускорение инференса. По данным JetBrains, Mellum2 обрабатывает запросы быстрее, чем открытые модели аналогичного размера, при сопоставимом качестве на бенчмарках.
Четыре ключевых сценария использования. JetBrains выделяет маршрутизацию и оркестрацию запросов в мультимодельных системах, RAG-пайплайны (Retrieval-Augmented Generation, генерация с опорой на найденные документы), работу в качестве подагента внутри агентных систем, а также приватное развёртывание на собственных серверах с проприетарным кодом.
Лицензия Apache 2.0. Это одна из самых свободных открытых лицензий: можно использовать коммерчески, модифицировать и встраивать в продукты без отчислений.

Отдельно JetBrains формулирует концепцию «фокусной модели»: быстрой, точно ограниченной в задачах модели, которая закрывает высокочастотные операции внутри более крупной ИИ-системы. Цель не заменить все модели в стеке, а сделать этот стек быстрее и дешевле.

Как это читать

JetBrains сравнивает Mellum2 с «моделями аналогичного размера», но в блоге не названы конкретные конкуренты и не приведены числовые результаты отдельных бенчмарков. Полная методология и таблицы доступны только в техническом отчёте на arxiv.org. Формулировка «competitive benchmark performance» (сопоставимое качество) не означает лидерство: это заявка на паритет, а не на превосходство. Двукратное ускорение относится к скорости инференса, а не к качеству ответов. Также модель обучена с нуля, что означает отсутствие унаследованных данных от сторонних фундаментальных моделей, но и отсутствие их накопленных знаний.

Что это значит для вас?

Разработчикам и авторам, работающим в российских IDE. Mellum2 под Apache 2.0 можно встроить в любую среду разработки без лицензионных ограничений. Для тех, кто использует продукты JetBrains (IntelliJ IDEA, PyCharm, WebStorm), появляется модель от того же вендора, оптимизированная под код. Важно: на момент публикации JetBrains не объявляла о встроенной интеграции Mellum2 в свои IDE, модель доступна для скачивания на HuggingFace.

Компаниям в РФ и СНГ с требованиями к приватности. Активация только 2,5 млрд параметров на токен означает, что модель можно запустить на относительно скромном железе. Для организаций, которым запрещено отправлять код и внутренние документы в облака зарубежных провайдеров, это рабочий вариант локального ИИ-ассистента.

Авторам Дзена и контент-маркетологам. Модель обучена и на естественном языке, хотя основной фокус на коде. Для генерации и суммаризации текстов на русском языке JetBrains не приводит отдельных бенчмарков. Если вам нужен именно текстовый помощник на русском, стоит дождаться независимых тестов или попробовать самостоятельно. Из доступных в РФ аналогов для текстовых задач по-прежнему ближе YandexGPT и GigaChat.

Мнение редакции dzen.guru

Я вижу в Mellum2 прежде всего практичный инструмент для тех, кто строит ИИ-пайплайны в разработке и не хочет гонять тяжёлую модель на каждый промежуточный шаг. Архитектура Mixture of Experts перестаёт быть экзотикой больших лабораторий и приходит в рабочие инструменты. Двукратное ускорение при сохранении качества, это прямая экономия на серверах, и для российских команд, у которых доступ к GPU ограничен санкционной логистикой, такая эффективность на вес золота. Но честно: пока JetBrains не показала подробные бенчмарки по русскоязычным задачам, называть Mellum2 решением для контентщиков рано. Для кода и агентных сценариев внутри IDE модель выглядит как рабочий выбор уже сейчас.

Скачать модель и попробовать можно на странице коллекции JetBrains на HuggingFace. Лицензия Apache 2.0 позволяет запустить её на своём сервере за вечер, и это, пожалуй, лучший способ проверить, подходит ли Mellum2 под ваши задачи, а не верить бенчмаркам на слово.

Поделиться:Telegram VK

Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Google Gemini утроил аудиторию до 950 млн: доля ChatGPT впервые ниже 50%

Google Gemini перешагнул отметку в 950 миллионов активных пользователей в месяц, утроив аудиторию за год, и теперь вплотную подбирается к миллиардному рубежу,…

24 июля в 05:45 МСК5 мин

Etched удвоил оценку до $10,3 млрд: ИИ-чипы для инференса набрали заказов на $1 млрд

Стартап Etched, основанный тремя бывшими студентами Гарварда в 2022 году, закрыл раунд Series C на 300 миллионов долларов при оценке 10,3 миллиарда долларов,…

24 июля в 05:30 МСК5 мин

Nvidia GPU впервые отправят на Луну: чипы Jetson будут управлять луноходом без связи с Землёй

Компания Lunar Outpost 5 июня объявила, что её следующий луноход получит чипы Nvidia Jetson для управления лидаром, и если миссия состоится, это будет первый…

24 июля в 05:15 МСК5 мин