Что такое ИИ-агент SpatialClaw: NVIDIA набрала 59,9% на 20 бенчмарках без дообучения
NVIDIA выпустила SpatialClaw, ИИ-агента для пространственного мышления, который не требует дообучения и работает через код: на 20 бенчмарках он набрал 59,9% точности, обойдя ближайшего конкурента SpaceTools на 11,2 пункта.

Модели компьютерного зрения до сих пор плохо понимают, где находятся объекты и как они соотносятся в трёхмерном пространстве, а SpatialClaw решает эту проблему без единой строчки дообучения, просто меняя способ взаимодействия агента с инструментами.
Исследователи NVIDIA Research представили работу 19 июня 2026 года. Главная идея: узкое место пространственного мышления у мультимодальных моделей (VLM, моделей, которые одновременно понимают текст и изображения) не в самих моделях, а в интерфейсе действий, то есть в том, как именно ИИ-агент вызывает инструменты восприятия. SpatialClaw заменяет жёсткие JSON-схемы вызова на свободный код на Python и позволяет агенту самому комбинировать инструменты, проверять промежуточные результаты и корректировать стратегию на лету.
Что такое ИИ-агент в данном контексте: это программа, которая сама решает, какие инструменты вызвать, в каком порядке, и может пересмотреть план, если промежуточный результат её не устроил.
| Показатель | Значение | Источник |
|---|---|---|
| Средняя точность на 20 бенчмарках | 59,9% | NVIDIA Research (MarkTechPost) |
| Превосходство над SpaceTools | +11,2 пункта | NVIDIA Research (MarkTechPost) |
| Число бенчмарков | 20, пять категорий | NVIDIA Research (MarkTechPost) |
| Число протестированных моделей-основ | 6 (от 26B до 397B параметров) | NVIDIA Research (MarkTechPost) |
| Доля побед за счёт кодовой композиции | 52,2% | LLM-as-judge, NVIDIA Research (MarkTechPost) |
| Максимальный прирост на динамических задачах | +17,6 пункта (DSI-Bench), +15,3 пункта (MindCube) | NVIDIA Research (MarkTechPost) |
Как устроен SpatialClaw и что он измеряет?
SpatialClaw оборачивает мультимодальную модель в агентный цикл из пяти этапов: планирование, генерация кода, выполнение, сборка обратной связи и отправка ответа.
Агент работает поверх постоянного ядра Python, в которое заранее загружены входные кадры и набор инструментов. Два ключевых инструмента:
- Reconstruct (обёртка над моделью Depth Anything 3) возвращает карту глубины, параметры камеры и плотные карты точек для каждого кадра.
- SAM3 (обёртка над моделью SAM 3) создаёт маски объектов по текстовому описанию, точке или рамке.
Дополнительно доступны утилиты для геометрии, работы с масками, временными рядами, графами и визуализацией. Все результаты хранятся как обычные переменные Python, и агент может свободно комбинировать их с библиотеками вроде NumPy или SciPy.
Принципиальное отличие от предшественников: агент пишет и выполняет код, а не просто вызывает заранее прописанные функции по шаблону. Он может проверить промежуточный результат (например, посмотреть маску объекта), обнаружить ошибку и переписать код.
Три интерфейса действий: почему код побеждает?
Исследователи сравнили три подхода на одной и той же задаче (измерить расстояние между обогревателем и дверью), с одним набором инструментов и одним промптом:
- Однопроходный код пишет программу целиком и запускает один раз. Ошибка в начале ломает весь результат.
- Структурированный вызов (JSON-схема) не может свободно комбинировать выходы инструментов. Если нужной операции нет в списке, ответ будет неверным.
- SpatialClaw сначала вычислил расстояние по центроидам, затем заметил, что центроид использует медиану, переключился на поиск ближайшей точки через KD-дерево (KD-tree, структура данных для быстрого поиска ближайших точек в пространстве) и выдал 0,9439 м при эталонном значении 0,9 м.
По данным LLM-as-judge (оценки автоматическим судьёй на основе языковой модели), 52,2% побед SpatialClaw над структурированным вызовом объясняются именно кодовой композицией, 19,5% приходятся на управление потоком выполнения.
Где прирост заметнее всего?
На статичных изображениях выигрыш есть, но скромный. Разрыв растёт на динамических задачах, где нужны цепочки геометрических вычислений по нескольким кадрам и ракурсам.
На модели Gemma4-31B:
- DSI-Bench: +17,6 пункта
- MindCube: +15,3 пункта
Фреймворк улучшил результаты на всех шести протестированных моделях-основах (от 26B до 397B параметров, семейства Qwen3.5/3.6 и Gemma4) относительно базовой линии без инструментов.
Результаты получены на 20 публичных бенчмарках, а не на промышленных задачах. Фреймворк не проходил дообучение, поэтому его точность целиком зависит от качества базовой модели. На моделях меньшего размера эффект может быть скромнее. Код опубликован в открытом доступе на GitHub (NVlabs/SpatialClaw), но требует GPU-сервер для инференса (вычислений при генерации ответов).
Что это значит для вас?
Разработчикам компьютерного зрения и робототехники в РФ. Код SpatialClaw открыт и не требует дообучения. Это значит, что можно подключить свою мультимодальную модель, заменить инструменты восприятия на локальные и адаптировать фреймворк под русскоязычные датасеты (наборы данных для обучения и тестирования). Для задач автономной навигации, промышленного контроля качества и геопространственного анализа подход с кодовым интерфейсом может дать прирост без затрат на дообучение.
Авторам на Дзене и контент-маркетологам. Тема «что такое ИИ-агент» перестаёт быть абстрактной. SpatialClaw показывает конкретную механику: агент пишет код, проверяет результат, исправляет ошибку. Это готовый кейс для объяснения агентного подхода аудитории без технического бэкграунда.
Предпринимателям. Фреймворк бесплатный и открытый, но для запуска нужен GPU-сервер. В РФ доступны облачные GPU через Yandex Cloud, SberCloud и Selectel. Из российских мультимодальных моделей, которые можно попробовать как базу, стоит смотреть на YandexGPT (с поддержкой изображений) и GigaChat, хотя они пока не тестировались с SpatialClaw.
Самое любопытное здесь не цифры бенчмарков, а сам принцип. NVIDIA по сути говорит: модели уже достаточно умны для пространственных задач, проблема в том, как мы позволяем им действовать. Замена жёсткого JSON на свободный код дала 11 пунктов прироста без единого нового обучающего примера. Для практиков это сигнал: прежде чем дообучать модель, проверьте, не мешает ли ей интерфейс. Я ожидаю, что подобный подход с кодовым интерфейсом скоро появится и в коммерческих продуктах за пределами пространственных задач.
Код доступен на GitHub (NVlabs/SpatialClaw), и команды могут запустить первый бенчмарк одной командой. Для тех, кто работает с пространственными данными в России, это конкретная отправная точка: взять открытый фреймворк, подставить свою модель и проверить, даст ли кодовый интерфейс прирост на ваших задачах.
По материалам MarkTechPost

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».
Читайте также

Что такое ИИ-агент с ожиданием: локальный граф на LangGraph без облака за 2 часа
Большинство разговоров об ИИ-агентах (agent, программа, которая сама решает, какой инструмент вызвать и когда остановиться) заканчиваются на уровне «подключите…
Anthropic теряет разработчиков из-за переработок: миссия «спасти мир» стала ловушкой
Anthropic, один из ключевых разработчиков больших языковых моделей (систем, которые генерируют текст, код и ведут диалог), 2 июня 2025 года оказалась в центре…

Сравнение LLM моделей Opus, GPT и Gemini: 11 задач через API без маркетинговых обещаний
Выжидаю окончание оригинала, но работаю с тем, что есть. Продолжаю по источнику: Автору Дзена, маркетологу или предпринимателю часто нужно выбрать одну из…
Комментарии