英伟达等提出了一种名为SpatialClaw的新型行动表示框架，通过重新定义视觉

英伟达等提出了一种名为SpatialClaw的新型行动表示框架，通过重新定义视觉-语言模型（VLM）代理的空间推理接口，在模拟和真实硬件测试中显著提升了具身代理在3D环境中的导航与操作准确性。

传统VLM在3D/4D空间推理（如物体位置关系、运动轨迹、多视图几何等）上仍面临巨大挑战。现有工具增强代理要么采用单次代码执行（提前锁定完整策略，无法观察中间结果），要么依赖结构化工具调用（灵活性差，难以自由组合操作）。SpatialClaw则创新性地以代码作为行动接口，维持一个状态持久的Python内核，预加载输入帧、感知模块（如SAM3分割、深度重建）和几何原语（NumPy、SciPy等）。代理每次仅生成一个可执行代码单元格，能基于先前输出、文本反馈和视觉观察灵活调整策略，实现真正的迭代式、开放式空间推理。

在20个覆盖静态图像与动态视频的空间推理基准测试上，SpatialClaw平均准确率达到59.9%，比近期最佳空间代理高出11.2个百分点，且在Qwen和Gemma等多个VLM backbone上无需任何特定微调即可稳定泛化，尤其在需要跨帧几何链式计算的动态4D任务中表现突出。

众力资讯网

英伟达等提出了一种名为SpatialClaw的新型行动表示框架，通过重新定义视觉

热门分类