英伟达等提出了一种名为SpatialClaw的新型行动表示框架,通过重新定义视觉-语言模型(VLM)代理的空间推理接口,在模拟和真实硬件测试中显著提升了具身代理在3D环境中的导航与操作准确性。
传统VLM在3D/4D空间推理(如物体位置关系、运动轨迹、多视图几何等)上仍面临巨大挑战。现有工具增强代理要么采用单次代码执行(提前锁定完整策略,无法观察中间结果),要么依赖结构化工具调用(灵活性差,难以自由组合操作)。SpatialClaw则创新性地以代码作为行动接口,维持一个状态持久的Python内核,预加载输入帧、感知模块(如SAM3分割、深度重建)和几何原语(NumPy、SciPy等)。代理每次仅生成一个可执行代码单元格,能基于先前输出、文本反馈和视觉观察灵活调整策略,实现真正的迭代式、开放式空间推理。
在20个覆盖静态图像与动态视频的空间推理基准测试上,SpatialClaw平均准确率达到59.9%,比近期最佳空间代理高出11.2个百分点,且在Qwen和Gemma等多个VLM backbone上无需任何特定微调即可稳定泛化,尤其在需要跨帧几何链式计算的动态4D任务中表现突出。
