具身智能圈子出了一件大事，国内讨论的人不多。英伟达机器人一号位Jim Fan，上

具身智能圈子出了一件大事，国内讨论的人不多。

英伟达机器人一号位Jim Fan，上个月在红杉AI峰会上说了一段话：「VLA已死，WAM当立。」

VLA，视觉-语言-动作模型。过去三年，所有做人形机器人的公司都在这个框架里搞。Figure的Helix、Google的RT-2、智元的开源模型——全是VLA路线。

Jim Fan说这条路走不通了。原话更狠：「VLA本质上是LVA，语言是第一公民，动作是三等公民。擅长编码名词和知识，但不擅长物理和动词。」

他提的新范式叫WAM——世界动作模型。核心逻辑：让机器人在动手之前，先在内部「做梦」几秒钟，预演物理后果。

更炸裂的是数据层面。他说遥操作也死了。他们搞了个EgoScale项目，用21000小时人类第一视角视频预训练——做饭的、修车的、搬东西的——99.9%不是机器人数据。然后只用50小时动捕加4小时遥操作微调，效果碾压纯遥操作训练的模型。

他还发现了机器人领域的Scaling Law：预训练计算量和验证损失之间，R²=0.998。跟当年语言模型的缩放定律一样漂亮。

圈内当然不都认同。Physical Intelligence和Genesis AI都在反驳，说VLA和世界模型不是二选一，是融合。有人甚至说Jim Fan这么激进是因为英伟达卖GPU——WAM的计算量比VLA大得多。

但不管动机如何，有一点他说对了：具身智能正在经历一次底层范式的重写。过去三年积累的技术栈，可能真要推倒重来。

你怎么看？VLA真的死了吗，还是被提前开了追悼会？

AI 机器人具身智能人形机器人 NVIDIA PhysicalAI

众力资讯网