最近,人工智能圈里又冒出一个新名词:
具身智能。
听起来有点拗口,其实说白了,就是让机器人不只是“看”世界,还能“理解”世界,并且真正动手去操作。
过去几年,大家被大语言模型和视频生成模型刷屏,GPT能聊天,Sora能生成视频,但它们都像是坐在屏幕前的“观众”,没法真正走进现实、动手做事。
而这一次,北京人形机器人创新中心开源的WoW具身世界模型,让机器人第一次真正迈出了从“想象”到“动手”的关键一步。
这事发生在2025年10月17日。
如果你没留意,可能觉得又是一个技术发布会。
但如果你稍微懂点机器人或者AI,就会意识到,这件事的意义,可能比我们想象的要大得多。
先说个简单的例子。
你让一个机器人去厨房倒杯水,它需要知道水龙头怎么开、杯子怎么拿、水流多大才不会溢出来。
这些对人来说是常识,但对机器来说,每一步都涉及复杂的物理判断。
过去的做法,是工程师一条条写规则,或者靠大量真实数据反复训练。
但这种方式成本高、泛化差,换个环境就可能“宕机”。
而WoW模型干了件更聪明的事:它不是靠死记硬背,而是学会了“物理规律的抽象本质”。
换句话说,它不是记住“这个水龙头要转三圈”,而是理解“水龙头转动会打开阀门,水流受重力影响会往下流”。
这样一来,哪怕面对没见过的水龙头、没见过的杯子,它也能推演出合理的动作。
这种能力,就是所谓的“具身智能”,让AI拥有身体,并通过身体与世界互动来学习。
而WoW,正是目前全球第一个真正意义上把“视觉+动作+物理推理+自我反思”融合在一起的世界模型。
那么,WoW是怎么做到的?
首先,它有一个叫DiT的“世界生成引擎”。
你可以把它想象成机器人的“大脑模拟器”。
给它一段视频开头,它就能预测接下来几秒世界会怎么变化:
杯子会不会倒?
水流会不会溅出来?
这些预测不是靠瞎猜,而是基于200万条高质量机器人与真实世界交互的数据训练出来的。
这些数据不是随便拍的视频,而是机器人真正在抓、推、拧、倒等动作中积累下来的轨迹,每一条都带着物理反馈。
其次,WoW有一个叫FM-IDM的“逆动力学模型”。
这个名字听着很技术,其实干的事很直观:
它能把一段视频里的动作,“翻译”成机器人能执行的指令。
比如模型“想象”出机械臂把苹果放进水槽的画面,FM-IDM就能算出机械臂每个关节该转多少度、用多大力。
这就打通了“看”和“做”之间的最后一公里。
更厉害的是,WoW还引入了一个叫SOPHIA的自反机制。
这个机制让模型能“自己教自己”。
具体怎么操作?
比如模型生成了一段倒水的视频,但评论模型发现水流方向不对、杯子倾斜过度,就会打个低分。
然后,优化智能体会根据这个反馈,调整提示词或推理路径,重新生成一段更合理的视频。
这个过程,就像人类在脑子里反复演练一个动作,直到觉得“这样应该行得通”。
这种“生成—批评—修正”的循环,让WoW越用越聪明。
实测数据显示,在简单任务上,它驱动真实机器人完成的成功率达到94.5%;
中等难度任务也有75.2%的成功率。
要知道,这些任务不是预设好的固定流程,而是需要根据环境动态调整的,比如“收拾餐具并按下绿色开关”这种长程任务。
为了让这种能力可衡量、可比较,北京人形团队还搞了个叫WoWBench的评估基准。
这是全球第一个专门针对具身世界模型的“考试卷”,从感知理解、预测推理、决策规划、泛化执行四个维度打分。
评测不仅用自动模型,还请了12位领域专家人工打分,确保结果靠谱。
在WoWBench上,WoW的表现全面领先于Cosmos-Predict、CogVideoX等国际主流模型,加入SOPHIA自优化模块后,总分从49.39提升到51.97,稳居第一。
更值得说的是,这次北京人形选择完全开源。
他们不仅放出了1.3B、2B、7B、14B等多个参数规模的预训练模型,还公开了推理代码和评估基准。
这意味着,全球任何高校、实验室、甚至个人开发者,只要有兴趣,都能下载、复现、改进这套系统。
这种开放态度,极大降低了具身智能的研究门槛。
为什么这件事重要?
因为过去,机器人技术长期被“专用化”困住。
工厂里的机械臂能精准焊接,但换个任务就抓瞎;
服务机器人能送餐,但遇到障碍物就卡住。
根本原因,是它们缺乏对物理世界的通用理解。
而WoW的出现,让机器人第一次具备了跨形态、跨任务、跨场景的泛化能力。
比如,同一个WoW模型,不用重新训练,就能控制UR5机械臂、Franka机器人、双臂协作平台,甚至人形机器人“具身天工2.0”。
它能让机械臂夹面包、倒酒、按按钮,也能让人形机器人把橙子放进盘子。
更有趣的是,它还能处理一些“脑洞”任务,比如“从梵高的《向日葵》画里拿出一朵向日葵”。
虽然现实中做不到,但模型能生成符合物理逻辑的模拟过程,这说明它理解了“画是二维的,向日葵是三维物体”这样的抽象关系。
这种能力,未来在工业自动化、家庭服务、医疗辅助等领域都有巨大潜力。
比如在工厂,机器人不再需要为每个零件单独编程,而是通过理解任务指令和物理环境,自主规划动作;
在家庭,服务机器人能真正理解“帮我把药瓶从高处拿下来”这样的自然语言,并安全执行;
在科研领域,WoW还能作为“虚拟沙盒”,让其他AI模型在其中试错、学习,加速整个智能体生态的发展。
当然,WoW不是万能的。
目前它在复杂任务,比如切割、精细装配上的成功率还有提升空间,14B大模型推理速度也偏慢。
但团队已经验证,随着数据量和模型规模增加,性能呈幂律增长,说明这条路是走得通的。
而且7B版本在效率和效果之间取得了不错平衡,适合实际部署。
从更宏观的视角看,WoW的开源,也标志着中国在具身智能这一前沿赛道上,已经站到了第一梯队。
此前,世界模型的研究主要集中在英美,比如谷歌的RT-2、斯坦福的VIMA。
而这次,北京人形不仅提出了原创架构,还获得了Hugging Face官方点赞,被斯坦福具身智能领域的学者引用,说明国际学界认可其技术价值。
更重要的是,这种“开源+基准+工具链”的完整生态,正在形成一种新的技术协作模式。
就像当年Linux推动操作系统发展,PyTorch加速深度学习普及一样,WoW有望成为具身智能领域的“基础设施”。
未来几年,围绕WoW的二次开发、应用落地、算法改进,可能会催生一大批创新项目。
回到开头那个问题:机器人真的能“懂”世界吗?
过去我们觉得,这需要几十年。
但现在看来,答案可能比想象中来得更快。
WoW没有吹嘘“通用人工智能”,也没有承诺“取代人类”,它只是踏踏实实地解决了一个核心问题:
如何让机器在真实物理世界中,像人一样思考和行动。
这一步,看似微小,实则关键。
因为真正的智能,从来不是坐在屏幕后生成漂亮画面,而是敢于走进厨房、拧开水龙头、稳稳接住那杯水。
而今天,机器人终于开始学着这么做了。
如果你对AI、机器人或者未来科技感兴趣,不妨关注一下WoW的开源项目。
也许几年后,你家里的第一个“能干活”的机器人,就运行着今天开源的这套模型。
技术的进步,往往就是这样,悄无声息,却改变一切。