北京人形开源WoW具身世界模型：机器人终于开始“懂”物理了

最近，人工智能圈里又冒出一个新名词：

具身智能。

听起来有点拗口，其实说白了，就是让机器人不只是“看”世界，还能“理解”世界，并且真正动手去操作。

过去几年，大家被大语言模型和视频生成模型刷屏，GPT能聊天，Sora能生成视频，但它们都像是坐在屏幕前的“观众”，没法真正走进现实、动手做事。

而这一次，北京人形机器人创新中心开源的WoW具身世界模型，让机器人第一次真正迈出了从“想象”到“动手”的关键一步。

这事发生在2025年10月17日。

如果你没留意，可能觉得又是一个技术发布会。

但如果你稍微懂点机器人或者AI，就会意识到，这件事的意义，可能比我们想象的要大得多。

先说个简单的例子。

你让一个机器人去厨房倒杯水，它需要知道水龙头怎么开、杯子怎么拿、水流多大才不会溢出来。

这些对人来说是常识，但对机器来说，每一步都涉及复杂的物理判断。

过去的做法，是工程师一条条写规则，或者靠大量真实数据反复训练。

但这种方式成本高、泛化差，换个环境就可能“宕机”。

而WoW模型干了件更聪明的事：它不是靠死记硬背，而是学会了“物理规律的抽象本质”。

换句话说，它不是记住“这个水龙头要转三圈”，而是理解“水龙头转动会打开阀门，水流受重力影响会往下流”。

这样一来，哪怕面对没见过的水龙头、没见过的杯子，它也能推演出合理的动作。

这种能力，就是所谓的“具身智能”，让AI拥有身体，并通过身体与世界互动来学习。

而WoW，正是目前全球第一个真正意义上把“视觉+动作+物理推理+自我反思”融合在一起的世界模型。

那么，WoW是怎么做到的？

首先，它有一个叫DiT的“世界生成引擎”。

你可以把它想象成机器人的“大脑模拟器”。

给它一段视频开头，它就能预测接下来几秒世界会怎么变化：

杯子会不会倒？

水流会不会溅出来？

这些预测不是靠瞎猜，而是基于200万条高质量机器人与真实世界交互的数据训练出来的。

这些数据不是随便拍的视频，而是机器人真正在抓、推、拧、倒等动作中积累下来的轨迹，每一条都带着物理反馈。

其次，WoW有一个叫FM-IDM的“逆动力学模型”。

这个名字听着很技术，其实干的事很直观：

它能把一段视频里的动作，“翻译”成机器人能执行的指令。

比如模型“想象”出机械臂把苹果放进水槽的画面，FM-IDM就能算出机械臂每个关节该转多少度、用多大力。

这就打通了“看”和“做”之间的最后一公里。

更厉害的是，WoW还引入了一个叫SOPHIA的自反机制。

这个机制让模型能“自己教自己”。

具体怎么操作？

比如模型生成了一段倒水的视频，但评论模型发现水流方向不对、杯子倾斜过度，就会打个低分。

然后，优化智能体会根据这个反馈，调整提示词或推理路径，重新生成一段更合理的视频。

这个过程，就像人类在脑子里反复演练一个动作，直到觉得“这样应该行得通”。

这种“生成—批评—修正”的循环，让WoW越用越聪明。

实测数据显示，在简单任务上，它驱动真实机器人完成的成功率达到94.5%；

中等难度任务也有75.2%的成功率。

要知道，这些任务不是预设好的固定流程，而是需要根据环境动态调整的，比如“收拾餐具并按下绿色开关”这种长程任务。

为了让这种能力可衡量、可比较，北京人形团队还搞了个叫WoWBench的评估基准。

这是全球第一个专门针对具身世界模型的“考试卷”，从感知理解、预测推理、决策规划、泛化执行四个维度打分。

评测不仅用自动模型，还请了12位领域专家人工打分，确保结果靠谱。

在WoWBench上，WoW的表现全面领先于Cosmos-Predict、CogVideoX等国际主流模型，加入SOPHIA自优化模块后，总分从49.39提升到51.97，稳居第一。

更值得说的是，这次北京人形选择完全开源。

他们不仅放出了1.3B、2B、7B、14B等多个参数规模的预训练模型，还公开了推理代码和评估基准。

这意味着，全球任何高校、实验室、甚至个人开发者，只要有兴趣，都能下载、复现、改进这套系统。

这种开放态度，极大降低了具身智能的研究门槛。

为什么这件事重要？

因为过去，机器人技术长期被“专用化”困住。

工厂里的机械臂能精准焊接，但换个任务就抓瞎；

服务机器人能送餐，但遇到障碍物就卡住。

根本原因，是它们缺乏对物理世界的通用理解。

而WoW的出现，让机器人第一次具备了跨形态、跨任务、跨场景的泛化能力。

比如，同一个WoW模型，不用重新训练，就能控制UR5机械臂、Franka机器人、双臂协作平台，甚至人形机器人“具身天工2.0”。

它能让机械臂夹面包、倒酒、按按钮，也能让人形机器人把橙子放进盘子。

更有趣的是，它还能处理一些“脑洞”任务，比如“从梵高的《向日葵》画里拿出一朵向日葵”。

虽然现实中做不到，但模型能生成符合物理逻辑的模拟过程，这说明它理解了“画是二维的，向日葵是三维物体”这样的抽象关系。

这种能力，未来在工业自动化、家庭服务、医疗辅助等领域都有巨大潜力。

比如在工厂，机器人不再需要为每个零件单独编程，而是通过理解任务指令和物理环境，自主规划动作；

在家庭，服务机器人能真正理解“帮我把药瓶从高处拿下来”这样的自然语言，并安全执行；

在科研领域，WoW还能作为“虚拟沙盒”，让其他AI模型在其中试错、学习，加速整个智能体生态的发展。

当然，WoW不是万能的。

目前它在复杂任务，比如切割、精细装配上的成功率还有提升空间，14B大模型推理速度也偏慢。

但团队已经验证，随着数据量和模型规模增加，性能呈幂律增长，说明这条路是走得通的。

而且7B版本在效率和效果之间取得了不错平衡，适合实际部署。

从更宏观的视角看，WoW的开源，也标志着中国在具身智能这一前沿赛道上，已经站到了第一梯队。

此前，世界模型的研究主要集中在英美，比如谷歌的RT-2、斯坦福的VIMA。

而这次，北京人形不仅提出了原创架构，还获得了Hugging Face官方点赞，被斯坦福具身智能领域的学者引用，说明国际学界认可其技术价值。

更重要的是，这种“开源+基准+工具链”的完整生态，正在形成一种新的技术协作模式。

就像当年Linux推动操作系统发展，PyTorch加速深度学习普及一样，WoW有望成为具身智能领域的“基础设施”。

未来几年，围绕WoW的二次开发、应用落地、算法改进，可能会催生一大批创新项目。

回到开头那个问题：机器人真的能“懂”世界吗？

过去我们觉得，这需要几十年。

但现在看来，答案可能比想象中来得更快。

WoW没有吹嘘“通用人工智能”，也没有承诺“取代人类”，它只是踏踏实实地解决了一个核心问题：

如何让机器在真实物理世界中，像人一样思考和行动。

这一步，看似微小，实则关键。

因为真正的智能，从来不是坐在屏幕后生成漂亮画面，而是敢于走进厨房、拧开水龙头、稳稳接住那杯水。

而今天，机器人终于开始学着这么做了。

如果你对AI、机器人或者未来科技感兴趣，不妨关注一下WoW的开源项目。

也许几年后，你家里的第一个“能干活”的机器人，就运行着今天开源的这套模型。

技术的进步，往往就是这样，悄无声息，却改变一切。

众力资讯网

北京人形开源WoW具身世界模型：机器人终于开始“懂”物理了

热门分类