【读懂世界模型：不是算法，而是 AI 下一个终极目标】快速阅读：“世界模型”并非

【读懂世界模型：不是算法，而是 AI 下一个终极目标】

快速阅读：“世界模型”并非某种特定的算法架构，而是一个任务目标。它目前正分裂为生成式、潜空间、3D 神经等不同流派，并深度渗透进机器人从数据生产、仿真训练到实机部署的全生命周期。

最近大家都在谈论 World Model，Fei-Fei Li 的公司拿到了巨额融资，LeCun 也跳出来搞自己的实验室。但如果你问十个人什么是世界模型，你大概会得到五个截然不同的答案。

其实“构建世界模型”更像是一个问题描述，就像 SLAM（即时定位与地图构建）一样，它不是指某种特定的算法，而是一个目标：给定传感器数据，搞清楚你在哪，并画出周围的地图。

现在的技术路线分成了几派。像 Sora 这种生成式模型，试图通过预测下一帧像素来理解世界，虽然画面很震撼，但经常会出现物体凭空消失或者物理规律失效的情况。LeCun 认为这太浪费算力了，把能量都耗在了渲染像素这种无关紧要的细节上。

有观点认为，更聪明的做法是像 JEPA 那样，在抽象的潜空间里做预测，跳过那些不可预测的噪声，直接去理解状态。而还有一派死磕 3D 几何，试图用 NeRF 或高斯泼溅技术把世界变成可交互的 3D 结构。

对于搞机器人的人来说，世界模型到底有什么用？它不再只是个玩具，而是贯穿了整个开发流程。

在训练前，它是数据工厂，生成海量的合成数据；在训练时，它是一个想象中的“健身房”，让机器人在脑子里跑几万次强化学习，而不需要真的去撞墙；在部署时，它甚至能充当规划器，让机器人先在脑子里模拟一下动作，选出最稳妥的那条路。

有个细节很有意思，现在的趋势是让模型实现闭环。机器人每在现实中走一步，产生的数据就会喂回给世界模型，让模型变得更准，进而让训练出的策略更强。这种迭代让“离线预训练”和“在线部署”之间的界限开始模糊。

现在的机器人还没迎来像 LLM 那样的爆发点，但世界模型确实提供了最接近那个拐点的路径。

问题是，我们到底需要一个能完美还原每一片叶子抖动的视频生成器，还是一个只需要知道物体在哪、怎么动的抽象大脑？

x.com/vai_viswanathan/status/2050177504392998932

众力资讯网