Игорь Градов

20 июня 2026 г. в 07:45 МСК5 мин

Что такое ИИ-агент SpatialClaw: NVIDIA набрала 59,9% на 20 бенчмарках без дообучения

NVIDIA выпустила SpatialClaw, ИИ-агента для пространственного мышления, который не требует дообучения и работает через код: на 20 бенчмарках он набрал 59,9% точности, обойдя ближайшего конкурента SpaceTools на 11,2 пункта.

Почему это важно

Модели компьютерного зрения до сих пор плохо понимают, где находятся объекты и как они соотносятся в трёхмерном пространстве, а SpatialClaw решает эту проблему без единой строчки дообучения, просто меняя способ взаимодействия агента с инструментами.

Исследователи NVIDIA Research представили работу 19 июня 2026 года. Главная идея: узкое место пространственного мышления у мультимодальных моделей (VLM, моделей, которые одновременно понимают текст и изображения) не в самих моделях, а в интерфейсе действий, то есть в том, как именно ИИ-агент вызывает инструменты восприятия. SpatialClaw заменяет жёсткие JSON-схемы вызова на свободный код на Python и позволяет агенту самому комбинировать инструменты, проверять промежуточные результаты и корректировать стратегию на лету.

Что такое ИИ-агент в данном контексте: это программа, которая сама решает, какие инструменты вызвать, в каком порядке, и может пересмотреть план, если промежуточный результат её не устроил.

Показатель	Значение	Источник
Средняя точность на 20 бенчмарках	59,9%	NVIDIA Research (MarkTechPost)
Превосходство над SpaceTools	+11,2 пункта	NVIDIA Research (MarkTechPost)
Число бенчмарков	20, пять категорий	NVIDIA Research (MarkTechPost)
Число протестированных моделей-основ	6 (от 26B до 397B параметров)	NVIDIA Research (MarkTechPost)
Доля побед за счёт кодовой композиции	52,2%	LLM-as-judge, NVIDIA Research (MarkTechPost)
Максимальный прирост на динамических задачах	+17,6 пункта (DSI-Bench), +15,3 пункта (MindCube)	NVIDIA Research (MarkTechPost)

Как устроен SpatialClaw и что он измеряет?

SpatialClaw оборачивает мультимодальную модель в агентный цикл из пяти этапов: планирование, генерация кода, выполнение, сборка обратной связи и отправка ответа.

Агент работает поверх постоянного ядра Python, в которое заранее загружены входные кадры и набор инструментов. Два ключевых инструмента:

Reconstruct (обёртка над моделью Depth Anything 3) возвращает карту глубины, параметры камеры и плотные карты точек для каждого кадра.
SAM3 (обёртка над моделью SAM 3) создаёт маски объектов по текстовому описанию, точке или рамке.

Дополнительно доступны утилиты для геометрии, работы с масками, временными рядами, графами и визуализацией. Все результаты хранятся как обычные переменные Python, и агент может свободно комбинировать их с библиотеками вроде NumPy или SciPy.

Принципиальное отличие от предшественников: агент пишет и выполняет код, а не просто вызывает заранее прописанные функции по шаблону. Он может проверить промежуточный результат (например, посмотреть маску объекта), обнаружить ошибку и переписать код.

Три интерфейса действий: почему код побеждает?

Исследователи сравнили три подхода на одной и той же задаче (измерить расстояние между обогревателем и дверью), с одним набором инструментов и одним промптом:

Однопроходный код пишет программу целиком и запускает один раз. Ошибка в начале ломает весь результат.
Структурированный вызов (JSON-схема) не может свободно комбинировать выходы инструментов. Если нужной операции нет в списке, ответ будет неверным.
SpatialClaw сначала вычислил расстояние по центроидам, затем заметил, что центроид использует медиану, переключился на поиск ближайшей точки через KD-дерево (KD-tree, структура данных для быстрого поиска ближайших точек в пространстве) и выдал 0,9439 м при эталонном значении 0,9 м.

По данным LLM-as-judge (оценки автоматическим судьёй на основе языковой модели), 52,2% побед SpatialClaw над структурированным вызовом объясняются именно кодовой композицией, 19,5% приходятся на управление потоком выполнения.

Где прирост заметнее всего?

На статичных изображениях выигрыш есть, но скромный. Разрыв растёт на динамических задачах, где нужны цепочки геометрических вычислений по нескольким кадрам и ракурсам.

На модели Gemma4-31B:

DSI-Bench: +17,6 пункта
MindCube: +15,3 пункта

Фреймворк улучшил результаты на всех шести протестированных моделях-основах (от 26B до 397B параметров, семейства Qwen3.5/3.6 и Gemma4) относительно базовой линии без инструментов.

Как это читать

Результаты получены на 20 публичных бенчмарках, а не на промышленных задачах. Фреймворк не проходил дообучение, поэтому его точность целиком зависит от качества базовой модели. На моделях меньшего размера эффект может быть скромнее. Код опубликован в открытом доступе на GitHub (NVlabs/SpatialClaw), но требует GPU-сервер для инференса (вычислений при генерации ответов).

Что это значит для вас?

Разработчикам компьютерного зрения и робототехники в РФ. Код SpatialClaw открыт и не требует дообучения. Это значит, что можно подключить свою мультимодальную модель, заменить инструменты восприятия на локальные и адаптировать фреймворк под русскоязычные датасеты (наборы данных для обучения и тестирования). Для задач автономной навигации, промышленного контроля качества и геопространственного анализа подход с кодовым интерфейсом может дать прирост без затрат на дообучение.

Авторам на Дзене и контент-маркетологам. Тема «что такое ИИ-агент» перестаёт быть абстрактной. SpatialClaw показывает конкретную механику: агент пишет код, проверяет результат, исправляет ошибку. Это готовый кейс для объяснения агентного подхода аудитории без технического бэкграунда.

Предпринимателям. Фреймворк бесплатный и открытый, но для запуска нужен GPU-сервер. В РФ доступны облачные GPU через Yandex Cloud, SberCloud и Selectel. Из российских мультимодальных моделей, которые можно попробовать как базу, стоит смотреть на YandexGPT (с поддержкой изображений) и GigaChat, хотя они пока не тестировались с SpatialClaw.

Мнение редакции dzen.guru

Самое любопытное здесь не цифры бенчмарков, а сам принцип. NVIDIA по сути говорит: модели уже достаточно умны для пространственных задач, проблема в том, как мы позволяем им действовать. Замена жёсткого JSON на свободный код дала 11 пунктов прироста без единого нового обучающего примера. Для практиков это сигнал: прежде чем дообучать модель, проверьте, не мешает ли ей интерфейс. Я ожидаю, что подобный подход с кодовым интерфейсом скоро появится и в коммерческих продуктах за пределами пространственных задач.

Код доступен на GitHub (NVlabs/SpatialClaw), и команды могут запустить первый бенчмарк одной командой. Для тех, кто работает с пространственными данными в России, это конкретная отправная точка: взять открытый фреймворк, подставить свою модель и проверить, даст ли кодовый интерфейс прирост на ваших задачах.

По материалам MarkTechPost

Поделиться:Telegram VK

Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Что такое ИИ-агент с ожиданием: локальный граф на LangGraph без облака за 2 часа

Большинство разговоров об ИИ-агентах (agent, программа, которая сама решает, какой инструмент вызвать и когда остановиться) заканчиваются на уровне «подключите…

20 июня в 07:30 МСК7 мин

Anthropic теряет разработчиков из-за переработок: миссия «спасти мир» стала ловушкой

Anthropic, один из ключевых разработчиков больших языковых моделей (систем, которые генерируют текст, код и ведут диалог), 2 июня 2025 года оказалась в центре…

20 июня в 07:15 МСК4 мин

Сравнение LLM моделей Opus, GPT и Gemini: 11 задач через API без маркетинговых обещаний

Выжидаю окончание оригинала, но работаю с тем, что есть. Продолжаю по источнику: Автору Дзена, маркетологу или предпринимателю часто нужно выбрать одну из…

20 июня в 06:45 МСК7 мин