Игорь Градов

23 июня 2026 г. в 11:15 МСК6 мин

Prime Intellect открыла обучение нейросетей с триллионом параметров на 28 узлах вместо сотен

Компания Prime Intellect выпустила версию 0.6.0 своего открытого фреймворка prime-rl, и теперь разработчики могут запускать обучение с подкреплением на моделях с триллионом параметров архитектуры MoE (Mixture-of-Experts, смесь экспертов, когда модель активирует только часть своих «мозгов» на каждый запрос) всего на 28 узлах с GPU H200.

Почему это важно

Раньше обучение нейросетей такого масштаба требовало синхронной работы сотен узлов, и любой «зависший» процесс простаивал весь кластер. prime-rl 0.6.0 разделяет обучение и генерацию ответов модели, позволяя каждому компоненту работать независимо, а значит, обучение моделей-гигантов вроде GLM-5.1 и Kimi-K2.7 стало доступнее для команд с ограниченными вычислительными ресурсами.

Фреймворк prime-rl с самого начала развивался как инструмент для дообучения (fine-tuning) больших открытых моделей (open-source) на агентных задачах, то есть задачах, где ИИ-агент (agent) действует самостоятельно: пишет код, вызывает инструменты, принимает решения на протяжении десятков и сотен шагов. Версия 0.6.0 впервые масштабирует этот подход до моделей с триллионом параметров. Анонс опубликован в блоге Prime Intellect.

Что понадобится?

Вычислительный кластер с GPU NVIDIA H200 (от 28 узлов для полного прогона GLM-5.1; меньшие модели потребуют меньше)
Менеджер задач Slurm для запуска распределённых задач на кластере
Пакетный менеджер uv (Python) для запуска команд фреймворка
Фреймворк prime-rl 0.6.0 (открытый код, доступен публично)
Модель для обучения: GLM-5.1 от zai-org, Kimi-K2.7-Code от Moonshot AI или NVIDIA Nemotron-3-Ultra-550B
Время: по данным Prime Intellect, один шаг обучения GLM-5.1 на последовательности длиной 131 000 токенов (token, минимальная единица текста для модели) занимает менее 5 минут

Пошаговая инструкция: запуск обучения MoE-модели

1. Подготовьте кластер и окружение

Убедитесь, что на узлах кластера установлен Slurm и пакетный менеджер uv. Фреймворк prime-rl работает поверх torchtitan, кодовой базы PyTorch для распределённого обучения нейросетей.

2. Выберите модель и конфигурацию

Фреймворк поддерживает несколько крупных MoE-моделей. В анонсе Prime Intellect приведён пример с GLM-5.1. Конфигурация описана в TOML-файле, который задаёт параметры: размер батча (256 «прогонов», то есть 256 параллельных сценариев, которые модель проигрывает за раз), длину последовательности и параллелизм.

3. Запустите обучение одной командой

На Slurm-кластере полный прогон GLM-5.1 стартует так:

uv run rl @ examples/glm5_llmd/rl.toml --output-dir /shared/outputs/glm5-llmd

Эта команда запускает и тренер (обучающий компонент), и инференс (inference, генерация ответов моделью), и они работают асинхронно, не дожидаясь друг друга.

4. Настройте порог «свежести» политики

В асинхронном режиме модель может генерировать ответы по слегка устаревшей версии весов. Параметр max_off_policy_steps задаёт, сколько шагов «отставания» допустимо. Запросы от слишком старой версии автоматически отбрасываются.

5. Включите нужные оптимизации инференса

В зависимости от задачи выберите:

FP8-инференс (пониженная точность вычислений, ускоряет обработку) с ядрами DeepEP и DeepGEMM
Wide Expert Parallelism: эксперты модели раскидываются по 32 и более GPU, каждый GPU обслуживает свой набор экспертов
Разделение Prefill и Decode: если модель работает с инструментами и длинными ответами среды (соотношение prefill:decode достигает 4:1), разделение не даёт длинным вводам тормозить генерацию
Выгрузка KV-кеша на CPU и диск: prime-rl поддерживает как встроенную выгрузку vLLM, так и централизованное хранилище Mooncake Store, которое объединяет RAM и диск всех узлов

6. Активируйте Router Replay (R3) для стабильности

Несовпадение маршрутизации экспертов между инференсом и тренером незаметно портит обучение нейросетей. Router Replay записывает, какие эксперты были задействованы при генерации, и воспроизводит те же решения на тренере. По данным Prime Intellect, это снижает расхождение (KL-дивергенцию) примерно на порядок. Данные маршрутизации имеют формат [num_layers, top_k, seq_len] и могут занимать сотни гигабайт, поэтому prime-rl обрабатывает их как непрозрачный поток оптимизированными операциями PyTorch.

7. Задайте параллелизм обучения

Тренер использует три вида параллелизма одновременно:

FSDP (распределение параметров по GPU)
EP (Expert Parallelism, распределение экспертов): при 78 слоях и 800 млрд параметров один слой при сборке занимает около 40 ГБ, EP=8 решает эту проблему, рассылая токены вместо сбора полных экспертов
CP (Context Parallelism, параллелизм по контексту): на длинах 131 000+ токенов память занимают активации, а не параметры, и prime-rl включает собственную реализацию контекстного параллелизма для архитектуры DSA, которую стандартные методы Ulysses и Ring Attention не поддерживают напрямую

Пример: обучение GLM-5.1 на задачах программирования

Prime Intellect обучала модель GLM-5.1 на задачах SWE (Software Engineering, разработка программного обеспечения): модель получала реальные баг-репорты из репозиториев и самостоятельно искала решение, делая сотни шагов с вызовами инструментов. Длина последовательности достигала 131 000 токенов, батч составлял 256 прогонов. Весь процесс шёл на 28 узлах H200, каждый шаг обучения занимал менее 5 минут. Разделение prefill и decode удерживало задержку генерации предсказуемой даже при длинных ответах среды.

Частые ошибки

Игнорирование параметра max_off_policy_steps: без него модель будет учиться на давно устаревших ответах, и обучение нейросетей пойдёт вразнос.
Запуск без Router Replay: расхождение маршрутизации между инференсом и тренером копится незаметно. Метрики будут выглядеть нормально, но качество модели пострадает.
Одинаковые воркеры для prefill и decode: при работе с инструментами и длинными ответами среды общие воркеры раздувают задержку. Разделяйте их.
Недооценка размера данных R3: маршрутные данные могут занимать сотни гигабайт и генерировать поток в десятки гигабит в секунду. Убедитесь, что сетевая инфраструктура кластера это выдержит.

Что делать с этим прямо сейчас, по ролям?

Разработчику и ML-инженеру в РФ и СНГ: если у вас есть доступ к кластеру с H200 (облачные провайдеры вроде Yandex Cloud или Selectel наращивают GPU-парк), prime-rl 0.6.0 позволяет запустить обучение моделей масштаба GLM-5.1 или Kimi-K2.7 без написания собственного распределённого кода. Фреймворк открытый.

Автору Дзена и контент-специалисту: практического применения в контенте пока нет, это инструмент для обучения, а не для генерации текстов. Но понимание того, как устроено обучение нейросетей на агентных задачах, поможет оценивать новости про «ИИ-агентов, которые пишут код сами»: теперь вы знаете, что за этим стоят конкретные инженерные решения, а не магия.

Предпринимателю и руководителю: если ваша команда рассматривает дообучение больших моделей под свои задачи (автоматизация разработки, агенты поддержки), prime-rl снижает порог входа по железу. 28 узлов вместо сотен, это другой бюджет. Из доступных в РФ альтернатив для дообучения стоит смотреть на инструменты экосистемы YandexGPT, хотя они пока не работают с MoE-моделями триллионного масштаба.

Мнение редакции dzen.guru

По моим наблюдениям, главная ценность prime-rl 0.6.0 не в самом факте поддержки триллионных моделей, а в том, что асинхронный подход устраняет самую дорогую проблему агентного обучения: простой GPU, пока один «прогон» застрял на сложной задаче. Для команд, которые работают с арендованными GPU, каждая минута простоя стоит денег. Честная оговорка: фреймворк заточен под NVIDIA H200 и требует Slurm-кластера, то есть без серьёзной инфраструктуры или облачного провайдера с нужными GPU запустить его не получится. Это инструмент для профессиональных ML-команд, не для экспериментов на домашнем компьютере.

Хотите разобраться в нейросетях на практике?

В dzen.guru мы разбираем инструменты ИИ, которые уже работают для авторов и предпринимателей в РФ. Подпишитесь, чтобы не пропустить практические разборы.

Подписаться на dzen.guru

Обучение нейросетей триллионного масштаба перестаёт быть привилегией лабораторий с тысячами GPU. 28 узлов, одна команда в терминале, и асинхронный тренер, который не ждёт отстающих. Если ваша команда готова к агентному дообучению, порог входа только что стал заметно ниже.

Поделиться:Telegram VK

Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Codex записал 37 ТБ логов за 3 недели: главные проблемы AI агентов не в модели

Codex от OpenAI за три недели записал на пользовательский SSD 37 терабайт диагностических логов, и этот случай показал одну из самых недооценённых проблем…

23 июня в 12:30 МСК6 мин

Hugging Face Hub перешёл на еженедельные релизы: весь конвейер собран на открытых моделях

Российские разработчики, работающие с открытыми библиотеками машинного обучения, теперь могут взять за основу готовый рабочий процесс еженедельного релиза…

23 июня в 11:30 МСК5 мин

Локальный RAG на FastAPI и Ollama: add PDF, Word file без облака и подписок

Ниже работа с локальными документами выходит за рамки «поболтать с моделью» и превращается в инженерную систему с API, логами, источниками и диагностикой.…

23 июня в 10:30 МСК6 мин