众力资讯网

北京人形开源WoW具身世界模型:机器人终于开始“懂”物理了

最近,人工智能圈里又冒出一个新名词:具身智能。听起来有点拗口,其实说白了,就是让机器人不只是“看”世界,还能“理解”世界

最近,人工智能圈里又冒出一个新名词:

具身智能。

听起来有点拗口,其实说白了,就是让机器人不只是“看”世界,还能“理解”世界,并且真正动手去操作。

过去几年,大家被大语言模型和视频生成模型刷屏,GPT能聊天,Sora能生成视频,但它们都像是坐在屏幕前的“观众”,没法真正走进现实、动手做事。

而这一次,北京人形机器人创新中心开源的WoW具身世界模型,让机器人第一次真正迈出了从“想象”到“动手”的关键一步。

这事发生在2025年10月17日。

如果你没留意,可能觉得又是一个技术发布会。

但如果你稍微懂点机器人或者AI,就会意识到,这件事的意义,可能比我们想象的要大得多。

先说个简单的例子。

你让一个机器人去厨房倒杯水,它需要知道水龙头怎么开、杯子怎么拿、水流多大才不会溢出来。

这些对人来说是常识,但对机器来说,每一步都涉及复杂的物理判断。

过去的做法,是工程师一条条写规则,或者靠大量真实数据反复训练。

但这种方式成本高、泛化差,换个环境就可能“宕机”。

而WoW模型干了件更聪明的事:它不是靠死记硬背,而是学会了“物理规律的抽象本质”。

换句话说,它不是记住“这个水龙头要转三圈”,而是理解“水龙头转动会打开阀门,水流受重力影响会往下流”。

这样一来,哪怕面对没见过的水龙头、没见过的杯子,它也能推演出合理的动作。

这种能力,就是所谓的“具身智能”,让AI拥有身体,并通过身体与世界互动来学习。

而WoW,正是目前全球第一个真正意义上把“视觉+动作+物理推理+自我反思”融合在一起的世界模型。

那么,WoW是怎么做到的?

首先,它有一个叫DiT的“世界生成引擎”。

你可以把它想象成机器人的“大脑模拟器”。

给它一段视频开头,它就能预测接下来几秒世界会怎么变化:

杯子会不会倒?

水流会不会溅出来?

这些预测不是靠瞎猜,而是基于200万条高质量机器人与真实世界交互的数据训练出来的。

这些数据不是随便拍的视频,而是机器人真正在抓、推、拧、倒等动作中积累下来的轨迹,每一条都带着物理反馈。

其次,WoW有一个叫FM-IDM的“逆动力学模型”。

这个名字听着很技术,其实干的事很直观:

它能把一段视频里的动作,“翻译”成机器人能执行的指令。

比如模型“想象”出机械臂把苹果放进水槽的画面,FM-IDM就能算出机械臂每个关节该转多少度、用多大力。

这就打通了“看”和“做”之间的最后一公里。

更厉害的是,WoW还引入了一个叫SOPHIA的自反机制。

这个机制让模型能“自己教自己”。

具体怎么操作?

比如模型生成了一段倒水的视频,但评论模型发现水流方向不对、杯子倾斜过度,就会打个低分。

然后,优化智能体会根据这个反馈,调整提示词或推理路径,重新生成一段更合理的视频。

这个过程,就像人类在脑子里反复演练一个动作,直到觉得“这样应该行得通”。

这种“生成—批评—修正”的循环,让WoW越用越聪明。

实测数据显示,在简单任务上,它驱动真实机器人完成的成功率达到94.5%;

中等难度任务也有75.2%的成功率。

要知道,这些任务不是预设好的固定流程,而是需要根据环境动态调整的,比如“收拾餐具并按下绿色开关”这种长程任务。

为了让这种能力可衡量、可比较,北京人形团队还搞了个叫WoWBench的评估基准。

这是全球第一个专门针对具身世界模型的“考试卷”,从感知理解、预测推理、决策规划、泛化执行四个维度打分。

评测不仅用自动模型,还请了12位领域专家人工打分,确保结果靠谱。

在WoWBench上,WoW的表现全面领先于Cosmos-Predict、CogVideoX等国际主流模型,加入SOPHIA自优化模块后,总分从49.39提升到51.97,稳居第一。

更值得说的是,这次北京人形选择完全开源。

他们不仅放出了1.3B、2B、7B、14B等多个参数规模的预训练模型,还公开了推理代码和评估基准。

这意味着,全球任何高校、实验室、甚至个人开发者,只要有兴趣,都能下载、复现、改进这套系统。

这种开放态度,极大降低了具身智能的研究门槛。

为什么这件事重要?

因为过去,机器人技术长期被“专用化”困住。

工厂里的机械臂能精准焊接,但换个任务就抓瞎;

服务机器人能送餐,但遇到障碍物就卡住。

根本原因,是它们缺乏对物理世界的通用理解。

而WoW的出现,让机器人第一次具备了跨形态、跨任务、跨场景的泛化能力。

比如,同一个WoW模型,不用重新训练,就能控制UR5机械臂、Franka机器人、双臂协作平台,甚至人形机器人“具身天工2.0”。

它能让机械臂夹面包、倒酒、按按钮,也能让人形机器人把橙子放进盘子。

更有趣的是,它还能处理一些“脑洞”任务,比如“从梵高的《向日葵》画里拿出一朵向日葵”。

虽然现实中做不到,但模型能生成符合物理逻辑的模拟过程,这说明它理解了“画是二维的,向日葵是三维物体”这样的抽象关系。

这种能力,未来在工业自动化、家庭服务、医疗辅助等领域都有巨大潜力。

比如在工厂,机器人不再需要为每个零件单独编程,而是通过理解任务指令和物理环境,自主规划动作;

在家庭,服务机器人能真正理解“帮我把药瓶从高处拿下来”这样的自然语言,并安全执行;

在科研领域,WoW还能作为“虚拟沙盒”,让其他AI模型在其中试错、学习,加速整个智能体生态的发展。

当然,WoW不是万能的。

目前它在复杂任务,比如切割、精细装配上的成功率还有提升空间,14B大模型推理速度也偏慢。

但团队已经验证,随着数据量和模型规模增加,性能呈幂律增长,说明这条路是走得通的。

而且7B版本在效率和效果之间取得了不错平衡,适合实际部署。

从更宏观的视角看,WoW的开源,也标志着中国在具身智能这一前沿赛道上,已经站到了第一梯队。

此前,世界模型的研究主要集中在英美,比如谷歌的RT-2、斯坦福的VIMA。

而这次,北京人形不仅提出了原创架构,还获得了Hugging Face官方点赞,被斯坦福具身智能领域的学者引用,说明国际学界认可其技术价值。

更重要的是,这种“开源+基准+工具链”的完整生态,正在形成一种新的技术协作模式。

就像当年Linux推动操作系统发展,PyTorch加速深度学习普及一样,WoW有望成为具身智能领域的“基础设施”。

未来几年,围绕WoW的二次开发、应用落地、算法改进,可能会催生一大批创新项目。

回到开头那个问题:机器人真的能“懂”世界吗?

过去我们觉得,这需要几十年。

但现在看来,答案可能比想象中来得更快。

WoW没有吹嘘“通用人工智能”,也没有承诺“取代人类”,它只是踏踏实实地解决了一个核心问题:

如何让机器在真实物理世界中,像人一样思考和行动。

这一步,看似微小,实则关键。

因为真正的智能,从来不是坐在屏幕后生成漂亮画面,而是敢于走进厨房、拧开水龙头、稳稳接住那杯水。

而今天,机器人终于开始学着这么做了。

如果你对AI、机器人或者未来科技感兴趣,不妨关注一下WoW的开源项目。

也许几年后,你家里的第一个“能干活”的机器人,就运行着今天开源的这套模型。

技术的进步,往往就是这样,悄无声息,却改变一切。