Игорь Градов
Игорь Градов
5 мин
ai

Mellum2 новая модель JetBrains с архитектурой MoE

JetBrains выпустила Mellum2, открытую 12-миллиардную модель на архитектуре Mixture of Experts (MoE, «смесь экспертов», когда на каждый запрос работает не вся сеть, а только нужная часть), которая обрабатывает текст и код вдвое быстрее аналогов такого же размера, активируя лишь 2,5 миллиарда параметров из 12.

Mellum2 новая модель JetBrains с архитектурой MoE
Почему это важно

Впервые крупный вендор IDE выпускает собственную открытую MoE-модель, заточенную именно под задачи разработки: маршрутизацию запросов, сжатие контекста и работу ИИ-агентов внутри редактора кода, и делает это под свободной лицензией Apache 2.0, что снимает барьер для локального развёртывания на любом сервере.

Mellum2 продолжает линейку JetBrains Mellum, начинавшуюся как модель автодополнения кода. Новая версия расширена до обработки естественного языка и задач программной инженерии, но намеренно не включает мультимодальные (работа с картинками, звуком) возможности. Специализация позволила сохранить компактность и скорость инференса (процесс, при котором модель генерирует ответ). Источник технического отчёта с архитектурой, бенчмарками и методологией оценки опубликован на arxiv.org.

Показатель Значение Источник
Общее число параметров 12 млрд HuggingFace, блог JetBrains
Активные параметры на токен (токен, минимальная единица текста для модели) 2,5 млрд HuggingFace, блог JetBrains
Скорость инференса относительно моделей того же размера более чем в 2 раза быстрее HuggingFace, блог JetBrains
Архитектура Mixture of Experts (MoE) HuggingFace, блог JetBrains
Лицензия Apache 2.0 HuggingFace, блог JetBrains
Обучение с нуля, на естественном языке и коде HuggingFace, блог JetBrains

Что именно измеряли и как устроена модель?

Архитектура Mixture of Experts устроена так: внутри модели живут несколько «экспертных» блоков, но на каждый входящий токен активируется только часть из них. Представьте офис, где 12 специалистов сидят за столами, но на конкретный вопрос клиента отвечают только двое-трое профильных, остальные не тратят время. Это даёт полную «ёмкость» знаний всей сети при затратах вычислений лишь на малую долю параметров.

JetBrains обучила Mellum2 с нуля на данных естественного языка и кода. В техническом отчёте команда оценивала модель на бенчмарках генерации кода, рассуждений, научных задач и математики, сравнивая с открытыми моделями сопоставимого размера.

Модель намеренно не обучали на изображениях, аудио и видео. Это осознанный выбор: узкая специализация на тексте и коде позволяет держать размер и скорость на уровне, пригодном для продакшн-нагрузок в реальном времени.

Что обнаружили?

  • 2,5 млрд активных параметров из 12 млрд. На каждый токен модель задействует примерно пятую часть своих весов, что резко снижает требования к вычислительным ресурсам при генерации.
  • Более чем двукратное ускорение инференса. По данным JetBrains, Mellum2 обрабатывает запросы быстрее, чем открытые модели аналогичного размера, при сопоставимом качестве на бенчмарках.
  • Четыре ключевых сценария использования. JetBrains выделяет маршрутизацию и оркестрацию запросов в мультимодельных системах, RAG-пайплайны (Retrieval-Augmented Generation, генерация с опорой на найденные документы), работу в качестве подагента внутри агентных систем, а также приватное развёртывание на собственных серверах с проприетарным кодом.
  • Лицензия Apache 2.0. Это одна из самых свободных открытых лицензий: можно использовать коммерчески, модифицировать и встраивать в продукты без отчислений.

Отдельно JetBrains формулирует концепцию «фокусной модели»: быстрой, точно ограниченной в задачах модели, которая закрывает высокочастотные операции внутри более крупной ИИ-системы. Цель не заменить все модели в стеке, а сделать этот стек быстрее и дешевле.

Как это читать

JetBrains сравнивает Mellum2 с «моделями аналогичного размера», но в блоге не названы конкретные конкуренты и не приведены числовые результаты отдельных бенчмарков. Полная методология и таблицы доступны только в техническом отчёте на arxiv.org. Формулировка «competitive benchmark performance» (сопоставимое качество) не означает лидерство: это заявка на паритет, а не на превосходство. Двукратное ускорение относится к скорости инференса, а не к качеству ответов. Также модель обучена с нуля, что означает отсутствие унаследованных данных от сторонних фундаментальных моделей, но и отсутствие их накопленных знаний.

Что это значит для вас?

Разработчикам и авторам, работающим в российских IDE. Mellum2 под Apache 2.0 можно встроить в любую среду разработки без лицензионных ограничений. Для тех, кто использует продукты JetBrains (IntelliJ IDEA, PyCharm, WebStorm), появляется модель от того же вендора, оптимизированная под код. Важно: на момент публикации JetBrains не объявляла о встроенной интеграции Mellum2 в свои IDE, модель доступна для скачивания на HuggingFace.

Компаниям в РФ и СНГ с требованиями к приватности. Активация только 2,5 млрд параметров на токен означает, что модель можно запустить на относительно скромном железе. Для организаций, которым запрещено отправлять код и внутренние документы в облака зарубежных провайдеров, это рабочий вариант локального ИИ-ассистента.

Авторам Дзена и контент-маркетологам. Модель обучена и на естественном языке, хотя основной фокус на коде. Для генерации и суммаризации текстов на русском языке JetBrains не приводит отдельных бенчмарков. Если вам нужен именно текстовый помощник на русском, стоит дождаться независимых тестов или попробовать самостоятельно. Из доступных в РФ аналогов для текстовых задач по-прежнему ближе YandexGPT и GigaChat.

Мнение редакции dzen.guru

Я вижу в Mellum2 прежде всего практичный инструмент для тех, кто строит ИИ-пайплайны в разработке и не хочет гонять тяжёлую модель на каждый промежуточный шаг. Архитектура Mixture of Experts перестаёт быть экзотикой больших лабораторий и приходит в рабочие инструменты. Двукратное ускорение при сохранении качества, это прямая экономия на серверах, и для российских команд, у которых доступ к GPU ограничен санкционной логистикой, такая эффективность на вес золота. Но честно: пока JetBrains не показала подробные бенчмарки по русскоязычным задачам, называть Mellum2 решением для контентщиков рано. Для кода и агентных сценариев внутри IDE модель выглядит как рабочий выбор уже сейчас.

Скачать модель и попробовать можно на странице коллекции JetBrains на HuggingFace. Лицензия Apache 2.0 позволяет запустить её на своём сервере за вечер, и это, пожалуй, лучший способ проверить, подходит ли Mellum2 под ваши задачи, а не верить бенчмаркам на слово.

По материалам HuggingFace

Поделиться:TelegramVK
Игорь Градов
Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Комментарии

Читайте также

Флорида подала иск против OpenAI
ai

Флорида подала иск против OpenAI

Флорида 2 июня 2026 года первой среди американских штатов подала иск против OpenAI и лично Сэма Альтмана, обвинив компанию в том, что ChatGPT способствовал…

4 мин
An OpenAI model solved a famous math problem that stumped humans for 80 years
ai

An OpenAI model solved a famous math problem that stumped humans for 80 years

Модель OpenAI опровергла гипотезу, над которой математики бились 80 лет, и это говорит о будущем ИИ в науке больше, чем кажется на первый взгляд. Почему это…

5 мин
NVIDIA Cosmos 3 для физического ИИ
ai

NVIDIA Cosmos 3 для физического ИИ

NVIDIA Cosmos 3 вышла 30 июня 2025 года как первая открытая мультимодальная модель, которая объединяет понимание и генерацию физического мира в одной…

6 мин