Игорь Градов

1 июля 2026 г. в 12:30 МСК6 мин

NVIDIA Nemotron 70B генерирует текст в 2,4 раза быстрее за счёт параллельных блоков

NVIDIA представила Nemotron-Labs-TwoTower 30B, модель с открытыми весами (open weights), которая генерирует текст в 2,42 раза быстрее классических моделей за счёт параллельного предсказания токенов (минимальных единиц текста, которые обрабатывает нейросеть) вместо последовательного.

Почему это важно

Модель сохраняет 98,7% качества обычной генерации, но ускоряет вывод почти в 2,5 раза. Для тех, кто запускает нейросети локально на своём железе, это прямой выигрыш: та же задача, вдвое меньше ожидания.

Обычные языковые модели выдают текст по одному токену за шаг. NVIDIA предложила архитектуру «две башни» (TwoTower), где одна башня отвечает за контекст, а вторая параллельно уточняет сразу блок токенов. Результат опубликован как базовая (не инструктивная) модель под лицензией NVIDIA Nemotron Open Model License, которая допускает коммерческое использование. Источник публикации и технических деталей: страница модели NVIDIA.

Что	Когда	Кто выпустил	Цена
Nemotron-Labs-TwoTower-30B-A3B-Base-BF16	дату релиза NVIDIA не указала	NVIDIA	бесплатно, открытые веса, коммерческая лицензия

Как устроена архитектура «двух башен»?

Модель NVIDIA Nemotron 70B по суммарному числу параметров (около 60 млрд, по данным NVIDIA) построена на гибридной основе Nemotron-3-Nano-30B-A3B. Активных параметров на каждый токен значительно меньше: около 3 млрд на каждую башню.

Каждая башня содержит 52 слоя трёх типов:

23 слоя Mamba-2 (архитектура для обработки длинных последовательностей)
6 слоёв самовнимания (self-attention, механизм, благодаря которому модель «видит» связи между словами)
23 слоя MoE (Mixture of Experts, «смесь экспертов», когда из 128 модулей активируются только 6 плюс 2 общих, что экономит вычисления)

Контекстная башня заморожена: она берёт готовые знания из базовой модели, обученной на 25 трлн токенов. Башня-«очиститель» (denoiser) обучена дополнительно на 2,1 трлн токенов. Это не полное переобучение с нуля, а доработка поверх уже обученной основы.

Что нового

Параллельная генерация блоками. Вместо одного токена за шаг модель берёт блок из 16 замаскированных токенов и уточняет их за несколько итераций. Итог: до 2,42 раза быстрее по реальному времени генерации (замер на двух GPU H100 в формате BF16, по данным NVIDIA).
Три режима из одного чекпоинта. Один и тот же файл модели запускается в режиме диффузии (быстро, параллельно), в режиме mock-AR (по одному токену, но через диффузионную башню) и в классическом авторегрессионном режиме (AR). Переключение через вызов разных функций.
Качество почти не страдает. По агрегированным бенчмаркам NVIDIA, модель сохраняет 98,7% результатов базовой AR-версии. Просадка заметна в задачах на код и математику (например, HumanEval: 79,27 у AR против 75,58 у TwoTower, по данным NVIDIA). Общие знания и мультиязычные тесты на уровне оригинала или чуть лучше.
Гибкий порог скорости и качества. Параметр γ (confidence threshold) регулирует баланс: выше γ означает больше качества, ниже означает больше скорости.

Как попробовать?

Убедитесь в железе. Полный режим «двух башен» требует 2 GPU с объёмом памяти около 59 ГБ каждый в формате BF16 (например, два H100). AR-режим работает на одном GPU с 80 ГБ. Для большинства домашних видеокарт это пока тяжело, но квантованные версии (если появятся от сообщества) могут изменить картину.
Скачайте модель. Чекпоинт доступен под именем nvidia/Nemotron-Labs-TwoTower-30B-A3B-Base-BF16. Загрузка через библиотеку Transformers с параметром trust_remote_code=True.
Выберите режим генерации. Для максимальной скорости используйте generate_mask_diffusion() с параметрами block_size=16 и confidence_threshold=0.8. Для привычного поведения, generate_ar().
Помните: это базовая модель. Чекпоинт выпущен без инструктивной настройки (instruction tuning). Модель продолжает текст, а не отвечает на вопросы в формате «вопрос и ответ». Для диалогового применения понадобится дообучение (fine-tuning, обучение модели на ваших примерах под узкую задачу).

Сравнение с доступными в РФ моделями

Параметр	Nemotron TwoTower	YandexGPT	GigaChat
Доступ	открытые веса, запуск локально	облачный API	облачный API
Локальный запуск	да (2 GPU по 59 ГБ для полного режима)	нет	нет
Инструктивная версия	нет (только базовая)	да	да
Русский язык	есть в бенчмарках, но модель базовая	основной фокус	основной фокус

Для практической работы с русским языком «из коробки» YandexGPT и GigaChat остаются удобнее: оба работают через облако, не требуют мощного железа и уже настроены на диалог. Nemotron TwoTower интересна тем, кто запускает модели на своём оборудовании и готов дообучать их самостоятельно.

Мнение редакции dzen.guru

Я вижу здесь не просто очередной релиз, а демонстрацию конкретного инженерного подхода: разделить модель на «читающую» и «пишущую» части, чтобы вторая работала параллельно. Ускорение в 2,42 раза при потере 1,3% качества по бенчмаркам NVIDIA выглядит выгодным обменом для задач массовой генерации.

Но оговорка: модель базовая. Она не умеет вести диалог, не настроена на инструкции, а для полного режима нужны две серверные видеокарты. Для автора Дзена или маркетолога сегодня это скорее технологический ориентир, чем рабочий инструмент.

Что сделать прямо сейчас: если вы работаете с локальными моделями и у вас есть доступ к серверному GPU, попробуйте AR-режим на одной карте. Если нет, следите за появлением квантованных и инструктивных версий от сообщества. Главная ценность релиза: NVIDIA показала, что диффузионный подход к тексту уже конкурирует с классикой, и это изменит скорость работы опенсорс-моделей в ближайшие месяцы.

Частые вопросы

Можно ли использовать Nemotron TwoTower для коммерческих проектов?

Да. Модель выпущена под лицензией NVIDIA Nemotron Open Model License, которая, по описанию NVIDIA, допускает коммерческое использование.

Заменит ли эта модель ChatGPT или YandexGPT для повседневных задач?

Пока нет. Выпущен только базовый чекпоинт без инструктивной настройки. Модель умеет продолжать текст, но не ведёт диалог и не следует командам. Для этого нужна инструктивная версия, которую NVIDIA пока не опубликовала.

Что значит «2,42 раза быстрее» на практике?

По замерам NVIDIA на двух GPU H100, генерация занимает примерно в 2,42 раза меньше реального времени по сравнению с той же моделью в классическом авторегрессионном режиме. На другом оборудовании цифра может отличаться: NVIDIA приводит результат для конкретной конфигурации (BF16, блок 16 токенов, порог γ=0,8).

Что делать с этим прямо сейчас, по ролям

Авторам Дзена. Сама модель пока не готова к диалогу, но архитектура TwoTower уже встроена в экосистему NVIDIA. Когда появится инструктивная версия или сообщество сделает квантованный вариант для потребительских карт, скорость локальной генерации текста вырастет заметно. Следите за репозиторием модели.

Маркетологам. Если ваша команда генерирует синтетические тексты в больших объёмах (описания товаров, черновики рассылок), ускорение в 2,42 раза при серверном запуске означает вдвое меньше времени и затрат на GPU-аренду при сопоставимом качестве.

Предпринимателям в РФ. Модель скачивается и запускается локально, не зависит от зарубежного API. Для компаний, которым критична автономность и хранение данных на своих серверах, это прямая альтернатива облачным сервисам. Но порог входа высок: нужны два серверных GPU.

Главный вывод: NVIDIA показала, что параллельная генерация текста через диффузию работает не в теории, а в конкретном чекпоинте, который можно скачать и запустить. Базовая модель без инструктивной настройки пока ограничена в применении, но сам подход «две башни» почти наверняка появится в следующих инструктивных и мультимодальных (работающих с текстом, изображениями, кодом одновременно) моделях NVIDIA.

Поделиться:Telegram VK

Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

OTUS открыл 65 бесплатных курсов по работе с нейросетями и ИТ на июль

В июле OTUS открывает 65 бесплатных демо-уроков по всем ключевым направлениям ИТ, и среди них сразу несколько занятий по работе с нейросетями: LLM-приложения,…

1 июля в 12:15 МСК5 мин

Wayve оценена в $8,5 млрд: автономные автомобили без HD-карт привлекли инженеров и инвесторов

Британский стартап Wayve, разрабатывающий технологии для автономных автомобилей, предложил сотрудникам продать часть принадлежащих им акций через тендерное…

1 июля в 11:45 МСК4 мин

Google выложила TabFM: нейросети для табличных данных больше не требуют настройки

Google Research представила TabFM, фундаментальную нейросеть для табличных данных, которая выдаёт прогнозы по незнакомым таблицам без обучения, настройки…

1 июля в 11:30 МСК5 мин