Комплект робототехники AI Zootopia от Qwen: единый язык для 15 платформ вместо переобучения
Qwen выпустила комплект робототехники AI Zootopia: три модели, которые впервые решают проблему несовместимости роботов через единый язык действий.

До сих пор модель, обученную на одном роботе, нельзя было перенести на другой без переобучения. Qwen-Robot-Suite предлагает единую систему выравнивания данных, и это открывает путь к масштабированию робототехники на разных платформах, включая российские.
Команда Qwen опубликовала набор из трёх открытых моделей для роботов, объединённых под названием Qwen-Robot-Suite. Релиз произошёл на фоне главной боли отрасли: данные с разных роботов несовместимы между собой, и политика, обученная на одной руке-манипуляторе, почти никогда не переносится на другую. Все три модели построены на зрительно-языковой основе Qwen и решают эту фрагментацию каждая по-своему. Источник публикации MarkTechPost.
| Что | Когда | Кто выпустил | Цена |
|---|---|---|---|
| Qwen-Robot-Suite: три модели для манипуляции, навигации и предсказания окружения | Июнь 2026 | Команда Qwen (Alibaba) | Бесплатно, открытые веса и код на GitHub |
Три модели для трёх задач: что внутри комплекта?
- Qwen-RobotManip решает задачу манипуляции (захват, перемещение предметов). Это VLA-модель (Vision-Language-Action, модель, которая смотрит камерой, читает текстовую инструкцию и выдаёт конкретные движения робота). Построена на базе Qwen3.5-4B. Главная находка: единая система выравнивания, которая приводит данные с разных роботов к общему 80-мерному вектору. Робот заполняет только те измерения, которые у него есть, а остальные маскируются.
- Qwen-RobotWorld предсказывает, как изменится окружение после действия. Это видеомодель мира на 60-слойном MMDiT (мультимодальный диффузионный трансформер, нейросеть, которая генерирует видео будущего на основе текста и текущего кадра) с 20 млрд параметров. Действия задаются обычным текстом на естественном языке, что делает модель независимой от конкретного робота.
- Qwen-RobotNav отвечает за навигацию. Построена на Qwen3-VL, доступна в трёх размерах: 2B, 4B и 8B параметров.
Две из трёх моделей, RobotManip и RobotNav, уже выложены на GitHub с открытым кодом.
Почему несовместимость данных так критична?
Разные роботы записывают свои состояния и действия в несовместимых форматах. Когда вы пытаетесь обучить одну модель на смешанных данных с разных платформ, вместо улучшения получается интерференция: модель путается.
RobotManip решает это тремя механизмами:
- Каноническое представление. Единый вектор из 80 измерений описывает состояние любого робота: положения суставов, позу захвата, состояние пальцев. Каждый робот заполняет только свои поля.
- Действия в координатах камеры. Движения выражаются как смещения относительно камеры. Визуально похожие движения на разных роботах становятся числовыми соседями.
- Адаптация из контекста. Модель читает недавнюю историю выполнения и по ней «понимает», на каком роботе работает, без переобучения параметров.
Для обучения собрано около 38 100 часов данных манипуляций, и всё из открытых источников и человеческих видео, без проприетарных съёмок. Конвейер синтеза переводит видео человеческих рук в роботизированные траектории для 15 платформ, это дало около 24 808 часов демонстраций.
Какие результаты показала модель?
Авторы подчёркивают, что стандартные бенчмарки плохо измеряют обобщение: модели без предобучения на роботах догоняют предобученные в пределах одной задачи. Поэтому фокус на перенос между разными роботами (OOD, out-of-distribution, «за пределами обучающей выборки»).
По данным исследования команды Qwen, на кросс-платформенном переносе RobotManip достигает 23,9% успеха при использовании действий в координатах камеры. Это в 3,2 раза выше, чем 7,5% у π0.5.
Модель заняла первое место в генералистском треке бенчмарка RoboChallenge Table30-v1 с 20% относительным улучшением над предыдущим лидером. Тесты на реальных роботах проведены на платформах AgileX ALOHA, Franka, UR и ARX.
Модель мира на 20 млрд параметров: зачем робот предсказывает будущее?
Qwen-RobotWorld нужна для того, чтобы робот мог «представить» результат своего действия до его совершения. Модель берёт текущий кадр с камеры и текстовую команду, а выдаёт видео того, что произойдёт дальше.
Язык здесь работает как универсальный интерфейс: одна и та же инструкция подходит для захвата Franka, двуручной системы Aloha или гуманоида. Обучающий набор EWK (Embodied World Knowledge) содержит около 8,6 млн пар «видео плюс текст» и свыше 200 млн кадров наблюдений.
Как попробовать?
- Перейдите в репозитории на GitHub: код RobotManip и RobotNav опубликован с открытыми весами.
- Убедитесь, что у вас есть GPU с достаточным объёмом памяти: модели от 2B до 20B параметров, минимальный вариант (RobotNav-2B) запустится на потребительской видеокарте.
- Начните с RobotNav-2B или RobotManip-4B для экспериментов: загрузите веса, следуйте инструкциям из README, попробуйте на стандартных симуляторах (MuJoCo, Habitat).
- Для использования модели мира RobotWorld дождитесь публикации репозитория: пока выложены только RobotManip и RobotNav.
Есть ли аналоги в России?
Прямого российского аналога комплекта робототехники AI Zootopia пока нет. YandexGPT и GigaChat работают с текстом и изображениями, но не выдают команды для физических роботов. В российской робототехнике используются отдельные решения для манипуляции и навигации, но единой открытой VLA-модели с выравниванием данных между платформами на момент публикации не появилось.
Для авторов Дзена и маркетологов это означает, что тема «ИИ для роботов» остаётся нишей англоязычных разработок, и объяснять её русскоязычной аудитории пока приходится с нуля.
На мой взгляд, главная ценность Qwen-Robot-Suite не в отдельных бенчмарках, а в подходе: единый формат данных для разных роботов. Это та самая проблема, которая годами тормозила масштабирование. Если выравнивание действительно работает на 15 платформах, как заявлено, мы увидим волну проектов, использующих эти модели как фундамент.
Оговорка: реальные тесты проведены командой-разработчиком, независимых воспроизведений пока нет. Цифра 3,2 раза лучше π0.5 впечатляет, но до массового применения далеко.
Что сделать сегодня: если вы пишете про робототехнику или ИИ, разберитесь в термине VLA-модель, он будет встречаться всё чаще. Если вы предприниматель в робототехнике, протестируйте RobotManip на своём оборудовании, пока модель бесплатна и открыта. Если вы автор Дзена, тема «один ИИ управляет разными роботами» хорошо объясняется аналогией с универсальной зарядкой USB-C вместо десятка проприетарных разъёмов.
Частые вопросы
Нужен ли мощный компьютер для запуска?
Зависит от модели. RobotNav-2B (2 млрд параметров) запустится на видеокарте с 8 ГБ памяти. RobotWorld с 20 млрд параметров потребует серверного GPU или облачного сервиса.
Можно ли использовать модели без физического робота?
Да. Модели работают в симуляторах, таких как MuJoCo. Можно экспериментировать с виртуальными средами, не покупая оборудование.
Подходят ли модели для коммерческих проектов?
Веса и код опубликованы с открытым доступом. Конкретную лицензию проверяйте в репозитории на GitHub: условия использования могут отличаться для исследований и коммерции.
Комплект робототехники AI Zootopia от Qwen пока не решит задачу «под ключ», но впервые даёт открытый инструмент, который позволяет одной модели работать на принципиально разных роботах. Для российских разработчиков, у которых зоопарк платформ особенно пёстрый, это практически полезный фундамент.
По материалам MarkTechPost

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».
Читайте также

Apple к 2027 встроит камеры в AirPods: Siri научится видеть мир глазами владельца
Apple планирует выпустить осенью 2025 года складной iPhone, а к концу 2027-го добавить камеры в наушники AirPods, открывая голосовому помощнику Siri доступ к…

ИИ в оборонке США: Пентагон сократил подготовку отчётов с 200 до 5 часов
Пентагон за год перевёл все шесть военных ветвей США на генеративный ИИ через единую платформу GenAI.mil, и теперь чиновники открыто хвалятся тем, что…

Robinhood сократил 290 человек, но впервые не прикрылся ИИ: сокращение рабочих мест на фоне роста выручки
Robinhood сокращает штат на 290 человек, но впервые за сезон массовых увольнений в техиндустрии не упоминает ИИ ни в письме CEO Влада Тенева сотрудникам, ни в…
Комментарии