SpatialClaw 带来了一个颠覆性的解法:把代码作为核心交互界面,可以让 VLM 在持久的 Python 环境里一步步写代码。
它直接为 VLM 智能体搭建了一个持续在线、带状态记忆的 Python 内核(Stateful Python Kernel)。
里面预装了三大利器:
1.感知原语:如 SAM3 图像分割、Depth-Anything-3 深度重建等;
2.几何工具:处理相机姿态、坐标转换、向量计算等;
3.科学计算库:常用的 NumPy、SciPy 等。
论文在包括 Qwen3.5/3.6、Gemma4 在内的 6 个不同参数量(26B 到 397B)的大模型底座上进行了测试,所有模型在换上 SpatialClaw 界面后,空间推理能力全部迎来了史诗级暴涨。
20个空间推理基准平均 59.9%,比之前最强的 SpaceTools 高了 11.2 分,尤其是多视图、视频、4D 这种复杂任务表现极其亮眼。
这不仅是工具增强 Agent 的新范式,给 VLM 一个灵活的代码工作台,它就能还你一片通往三维物理世界的新天地!
值得所有多模态 Agent 研究者关注一下~ (论文可以直接↓download哦~)



