最近关于 VLA 和世界模型的争论有些火热,大家都纷纷表态。
理想汽车智能驾驶副总裁郎咸朋的观点很直白:VLA 里的 L 不是界面上的文字,而是支撑感知到决策的隐性推理链,语言能力是真正的认知框架。
华为车 BU CEO 靳玉志则代表华为偏向 WA(world action),他认为跳过语言才能更接近对物理世界的理解。
行业还有一种观点是:别被「VLA=聪明」的流量话术带偏,语言能力能提升交互,但不等于驾驶能力。
技术上讲:
- VLA 工程化更快、易微调、利于量产;
- 世界模型在因果推理和零样本泛化上理论更优,但数据、仿真、表征崩溃、长期预测误差和可解释性这些工程问题还没彻底解决。
现实路径不是非黑即白,而是「混合+工程化」——用世界模型补想象力/生成极端样本,用 VLA 做可控的线上决策,再通过 RL 微调闭环。
短期内 VLA 会继续当主流。中长期胜负手在于:谁能把两者的优点真正工程化、把仿真和数据做透。