英伟达SpatialClaw，空间推理Agent的最优解

英伟达最新开源的 SpatialClaw 框架打破了视觉语言模型（VLM）在 3D/4D 空间推理上的天花板！

SpatialClaw 带来了一个颠覆性的解法：把代码作为核心交互界面，可以让 VLM 在持久的 Python 环境里一步步写代码。

它直接为 VLM 智能体搭建了一个持续在线、带状态记忆的 Python 内核（Stateful Python Kernel）。

里面预装了三大利器：
1.感知原语：如 SAM3 图像分割、Depth-Anything-3 深度重建等；
2.几何工具：处理相机姿态、坐标转换、向量计算等；
3.科学计算库：常用的 NumPy、SciPy 等。

论文在包括 Qwen3.5/3.6、Gemma4 在内的 6 个不同参数量（26B 到 397B）的大模型底座上进行了测试，所有模型在换上 SpatialClaw 界面后，空间推理能力全部迎来了史诗级暴涨。

20个空间推理基准平均 59.9%，比之前最强的 SpaceTools 高了 11.2 分，尤其是多视图、视频、4D 这种复杂任务表现极其亮眼。

这不仅是工具增强 Agent 的新范式，给 VLM 一个灵活的代码工作台，它就能还你一片通往三维物理世界的新天地！

值得所有多模态 Agent 研究者关注一下~ （论文可以直接↓download哦~）

众力资讯网

英伟达SpatialClaw，空间推理Agent的最优解

热门分类