具身智能圈子出了一件大事,国内讨论的人不多。
英伟达机器人一号位Jim Fan,上个月在红杉AI峰会上说了一段话:「VLA已死,WAM当立。」
VLA,视觉-语言-动作模型。过去三年,所有做人形机器人的公司都在这个框架里搞。Figure的Helix、Google的RT-2、智元的开源模型——全是VLA路线。
Jim Fan说这条路走不通了。原话更狠:「VLA本质上是LVA,语言是第一公民,动作是三等公民。擅长编码名词和知识,但不擅长物理和动词。」
他提的新范式叫WAM——世界动作模型。核心逻辑:让机器人在动手之前,先在内部「做梦」几秒钟,预演物理后果。
更炸裂的是数据层面。他说遥操作也死了。他们搞了个EgoScale项目,用21000小时人类第一视角视频预训练——做饭的、修车的、搬东西的——99.9%不是机器人数据。然后只用50小时动捕加4小时遥操作微调,效果碾压纯遥操作训练的模型。
他还发现了机器人领域的Scaling Law:预训练计算量和验证损失之间,R²=0.998。跟当年语言模型的缩放定律一样漂亮。
圈内当然不都认同。Physical Intelligence和Genesis AI都在反驳,说VLA和世界模型不是二选一,是融合。有人甚至说Jim Fan这么激进是因为英伟达卖GPU——WAM的计算量比VLA大得多。
但不管动机如何,有一点他说对了:具身智能正在经历一次底层范式的重写。过去三年积累的技术栈,可能真要推倒重来。
你怎么看?VLA真的死了吗,还是被提前开了追悼会?
AI 机器人 具身智能 人形机器人 NVIDIA PhysicalAI
