Игорь Градов
Игорь Градов
6 мин
ai

NVIDIA Cosmos 3 для физического ИИ

NVIDIA Cosmos 3 вышла 30 июня 2025 года как первая открытая мультимодальная модель, которая объединяет понимание и генерацию физического мира в одной архитектуре, заменяя четыре отдельных компонента предыдущих версий.

NVIDIA Cosmos 3 для физического ИИ

До сих пор разработчику робота или беспилотника приходилось собирать конвейер из нескольких моделей: одна генерировала видео, другая понимала сцену, третья планировала действия. Cosmos 3 делает всё это за один проход, и младшая версия помещается на одну видеокарту уровня рабочей станции.

Почему это важно

Впервые модель с открытыми весами умеет одновременно генерировать реалистичное видео физического мира, рассуждать о причинно-следственных связях в нём и предсказывать действия робота, а не только «смотреть и описывать».

Что Когда Кто выпустил Цена
Cosmos 3 Super (64B параметров) и Cosmos 3 Nano (16B параметров) 30 июня 2025 NVIDIA Бесплатно, открытые веса на Hugging Face

Физический ИИ (Physical AI) означает системы, которые не просто обрабатывают текст или картинки, а понимают реальный мир: движение объектов, гравитацию, столкновения, причину и следствие. NVIDIA позиционирует Cosmos 3 именно как фундамент для такого физического ИИ. Источник релиза, блог NVIDIA на платформе Hugging Face, подробно описывает архитектуру и сценарии применения.

Что объединили в одной модели?

Предыдущие версии Cosmos состояли из отдельных блоков:

  • Cosmos Predict генерировал видео
  • Cosmos Transfer управлял генерацией
  • Cosmos Reason понимал сцену
  • Cosmos Policy планировал действия

Cosmos 3 заменяет все четыре. Архитектура называется MoT (Mixture-of-Transformers, смесь трансформеров). Внутри модели входные данные любого типа (текст, изображение, видео, звук, команды действия) кодируются каждый своим кодировщиком, а затем проецируются в общее пространство. Проще говоря, модель «думает» на одном языке, независимо от того, подали ей текст или видеоролик.

Последовательность токенов (минимальных единиц данных) разделяется на два потока: авторегрессивный (AR), который отвечает за рассуждения и понимание, и диффузионный (DM), который генерирует новые кадры или звук. Оба потока работают внутри одного слоя трансформера и обмениваются информацией через совместное внимание. Это позволяет модели без переключения архитектуры действовать и как генератор видео, и как «мозг» робота.

Две версии: Nano и Super

  • Cosmos 3 Nano содержит 16 миллиардов параметров (8B на рассуждения, 8B на генерацию). Оптимизирована для инференса (выполнения запросов) на рабочей станции с видеокартой уровня RTX PRO 6000. Доступна на Hugging Face: nvidia/Cosmos3-Nano.
  • Cosmos 3 Super содержит 64 миллиарда параметров (32B на рассуждения, 32B на генерацию). Рассчитана на серверные GPU поколений NVIDIA Hopper и Blackwell. Предназначена для масштабной генерации синтетических обучающих данных и исследований. Доступна: nvidia/Cosmos3-Super.

Факт, что Nano запускается на одной профессиональной видеокарте, а не на кластере, снижает порог входа для небольших команд.

Что умеет Cosmos 3?

  • Генерация видео из текста, изображения или другого видео. Модель создаёт физически правдоподобные сцены: объекты падают, сталкиваются, отбрасывают тени по законам реального мира.
  • Рассуждения о физических свойствах. Модель анализирует движение, пространственные отношения и причинно-следственные связи в кадре.
  • Предсказание будущих действий. На основе текущего состояния сцены модель прогнозирует, что произойдёт дальше, и какие действия нужны роботу.
  • Генерация синтетических обучающих данных. NVIDIA выложила открытые наборы SDG-данных (Synthetic Data Generation) для физического ИИ, чтобы разработчики могли дообучать модель на своих задачах.

NVIDIA приводит конкретные примеры: робот, который учится брать и перемещать предметы; симуляция редких дорожных ситуаций для беспилотников; генерация сценариев безопасности на складе.

Как попробовать?

  1. Перейдите на страницу модели на Hugging Face: nvidia/Cosmos3-Nano для версии Nano или nvidia/Cosmos3-Super для версии Super. Ознакомьтесь с лицензией на карточке модели.
  2. Установите библиотеку Diffusers от Hugging Face. Cosmos 3 интегрирована через пайплайн Cosmos3OmniPipeline, запуск занимает несколько строк кода на Python.
  3. Для дообучения на собственных данных скачайте скрипты пост-обучения с GitHub NVIDIA (ссылки на карточке модели). Там же лежит руководство по составлению промптов (текстовых инструкций для модели).

Есть ли российский аналог?

Прямого аналога Cosmos 3 среди российских продуктов на момент публикации нет. YandexGPT и GigaChat работают с текстом и, частично, с изображениями, но не генерируют физически правдоподобное видео и не умеют планировать действия робота. Российские разработчики робототехники и автономного транспорта могут использовать Cosmos 3 напрямую: модель открыта, веса лежат на Hugging Face, ограничения доступа определяются только лицензией NVIDIA и возможностью получить нужное железо.

Что делать с этим прямо сейчас?

Разработчику робототехники или автономных систем в РФ. Cosmos 3 Nano на 16 миллиардов параметров запускается на одной видеокарте уровня RTX PRO 6000. Это убирает необходимость склеивать несколько моделей для задач «увидел сцену, понял физику, спланировал действие». Скачайте Nano, протестируйте на своих сценариях.

Автору Дзена или контент-маркетологу. Напрямую вы Cosmos 3 вряд ли будете запускать. Но физический ИИ быстро меняет визуальный контент: генерация видео с реалистичной физикой, симуляция продуктовых сцен, демонстрация товара в движении. Следите за тем, как студии начнут использовать такие модели для рекламных роликов.

Предпринимателю. Если бизнес связан со складской логистикой, доставкой или промышленной автоматизацией, Cosmos 3 позволяет генерировать синтетические обучающие данные для ваших сценариев без дорогих съёмок на реальном объекте. Открытые наборы SDG-данных от NVIDIA снижают стартовую стоимость экспериментов.

Мнение редакции dzen.guru

Cosmos 3 по документации выглядит как первая открытая модель, где «понимание мира» и «действие в мире» наконец соединены в одном инференсе. Для индустрии физического ИИ это заметный сдвиг: раньше каждый блок (зрение, генерация, планирование) жил отдельно, и интеграция съедала месяцы инженерной работы.

Оговорка честная: мы пока не тестировали модель на своём железе. 16B параметров на одной карте звучит доступно, но реальная скорость генерации видео и качество физических рассуждений покажет только практика. Кроме того, лицензия NVIDIA не равна MIT: прочитайте условия на карточке модели перед коммерческим использованием.

Что сделать сегодня: если вы работаете с робототехникой или автономными системами, скачайте Nano и прогоните базовый пример из руководства на Hugging Face. Если вы автор или маркетолог, добавьте «физический ИИ» в список терминов, за которыми следите: через год-два это слово будет в каждом втором брифе на видеоконтент.

Частые вопросы

Нужен ли мощный сервер для запуска?

Для Cosmos 3 Nano (16B параметров) достаточно рабочей станции с видеокартой уровня RTX PRO 6000. Cosmos 3 Super (64B) требует серверных GPU поколений Hopper или Blackwell. Точные требования по памяти NVIDIA указывает на карточке модели на Hugging Face.

Можно ли дообучить модель на своих данных?

Да. NVIDIA выложила скрипты пост-обучения (post-training scripts) на GitHub. Кроме того, опубликованы открытые наборы синтетических данных для физического ИИ, которые можно использовать как отправную точку для дообучения (обучения модели на ваших примерах под конкретную задачу).

Подходит ли Cosmos 3 для генерации обычного видеоконтента?

Модель умеет генерировать видео из текста или изображения, но заточена именно под физически корректные сцены: робототехника, автономное вождение, складская безопасность. Для «красивых роликов» без привязки к физике мира существуют другие генераторы видео. Cosmos 3 решает другую задачу: видео, в котором объекты ведут себя по законам реального мира, а не просто выглядят красиво.

По материалам HuggingFace

Поделиться:TelegramVK
Игорь Градов
Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Комментарии

Читайте также

Anthropic готовится к выходу на биржу (IPO)
ai

Anthropic готовится к выходу на биржу (IPO)

Anthropic официально подала заявку на IPO Многомесячная интрига о том, кто первым выйдет на биржу — OpenAI или Anthropic, — разрешилась. В понедельник…

3 мин