众力资讯网

【读懂世界模型:不是算法,而是 AI 下一个终极目标】快速阅读:“世界模型”并非

【读懂世界模型:不是算法,而是 AI 下一个终极目标】

快速阅读:“世界模型”并非某种特定的算法架构,而是一个任务目标。它目前正分裂为生成式、潜空间、3D 神经等不同流派,并深度渗透进机器人从数据生产、仿真训练到实机部署的全生命周期。

最近大家都在谈论 World Model,Fei-Fei Li 的公司拿到了巨额融资,LeCun 也跳出来搞自己的实验室。但如果你问十个人什么是世界模型,你大概会得到五个截然不同的答案。

其实“构建世界模型”更像是一个问题描述,就像 SLAM(即时定位与地图构建)一样,它不是指某种特定的算法,而是一个目标:给定传感器数据,搞清楚你在哪,并画出周围的地图。

现在的技术路线分成了几派。像 Sora 这种生成式模型,试图通过预测下一帧像素来理解世界,虽然画面很震撼,但经常会出现物体凭空消失或者物理规律失效的情况。LeCun 认为这太浪费算力了,把能量都耗在了渲染像素这种无关紧要的细节上。

有观点认为,更聪明的做法是像 JEPA 那样,在抽象的潜空间里做预测,跳过那些不可预测的噪声,直接去理解状态。而还有一派死磕 3D 几何,试图用 NeRF 或高斯泼溅技术把世界变成可交互的 3D 结构。

对于搞机器人的人来说,世界模型到底有什么用?它不再只是个玩具,而是贯穿了整个开发流程。

在训练前,它是数据工厂,生成海量的合成数据;在训练时,它是一个想象中的“健身房”,让机器人在脑子里跑几万次强化学习,而不需要真的去撞墙;在部署时,它甚至能充当规划器,让机器人先在脑子里模拟一下动作,选出最稳妥的那条路。

有个细节很有意思,现在的趋势是让模型实现闭环。机器人每在现实中走一步,产生的数据就会喂回给世界模型,让模型变得更准,进而让训练出的策略更强。这种迭代让“离线预训练”和“在线部署”之间的界限开始模糊。

现在的机器人还没迎来像 LLM 那样的爆发点,但世界模型确实提供了最接近那个拐点的路径。

问题是,我们到底需要一个能完美还原每一片叶子抖动的视频生成器,还是一个只需要知道物体在哪、怎么动的抽象大脑?

x.com/vai_viswanathan/status/2050177504392998932