众力资讯网

英伟达SpatialClaw,空间推理Agent的最优解

英伟达最新开源的 SpatialClaw 框架打破了视觉语言模型(VLM)在 3D/4D 空间推理上的天花板!

SpatialClaw 带来了一个颠覆性的解法:把代码作为核心交互界面,可以让 VLM 在持久的 Python 环境里一步步写代码。

它直接为 VLM 智能体搭建了一个持续在线、带状态记忆的 Python 内核(Stateful Python Kernel)。

里面预装了三大利器:
1.感知原语:如 SAM3 图像分割、Depth-Anything-3 深度重建等;
2.几何工具:处理相机姿态、坐标转换、向量计算等;
3.科学计算库:常用的 NumPy、SciPy 等。

论文在包括 Qwen3.5/3.6、Gemma4 在内的 6 个不同参数量(26B 到 397B)的大模型底座上进行了测试,所有模型在换上 SpatialClaw 界面后,空间推理能力全部迎来了史诗级暴涨。

20个空间推理基准平均 59.9%,比之前最强的 SpaceTools 高了 11.2 分,尤其是多视图、视频、4D 这种复杂任务表现极其亮眼。

这不仅是工具增强 Agent 的新范式,给 VLM 一个灵活的代码工作台,它就能还你一片通往三维物理世界的新天地!

值得所有多模态 Agent 研究者关注一下~ (论文可以直接↓download哦~)