小鹏AD 团队最新论文： X-World: Controllable Ego-C

小鹏AD 团队最新论文： X-World: Controllable Ego-Centric Multi-CameraWorld Models for Scalable End-to-End Driving

⭐面向端到端自动驾驶的可控多相机生成式世界模型，核心是在视频空间直接模拟未来多视角观测，解决实路测试成本高、场景覆盖有限、难以复现的痛点 ⭐

一、核心定位与背景：解决的痛点：端到端 VLA（视觉 - 语言 - 动作）自动驾驶依赖实路测试，成本高、场景少、难复现；需要一个可控、稳定、长时序的仿真器，能根据动作生成未来观测。

核心目标：构建动作条件化的多相机生成式世界模型，输入历史多视角视频 + 未来动作序列，输出严格遵循动作的未来多相机视频流。

二、核心能力与创新点：1. 多视角、动作条件化视频生成输入：7 路环视摄像头同步历史视频 + 未来驾驶动作序列（如转向、加速、变道）。输出：多视角未来视频流，严格遵循给定动作，保持跨视角几何一致与时间连贯。生成方式：流式自回归逐帧生成，支持实时交互与闭环使用。

2. 多层次精细可控性（核心亮点）动作级控制：生成结果严格对齐输入动作，保证仿真与规划一致。场景元素控制：动态交通体：可控车辆、行人等的轨迹与行为。静态道路元素：可控车道、标志、标线等。外观级控制（文本提示）：通过自然语言调节天气、时段、光照、场景风格。零样本风格迁移：输入海外道路规则、标志等提示，可将国内数据迁移为海外训练数据，降低本地化成本。

3. 技术架构核心：多视角潜在视频生成器显式建模跨视角几何一致性与时间连贯性，适配多相机自动驾驶。区别于传统双向扩散，采用流式自回归，天然支持闭环评估与在线强化学习。

4. 训练数据与应用场景训练数据：大规模高保真真实驾驶序列，含 7 路多视角视频、动态轨迹、静态场景标注。核心应用：端到端 VLA 策略闭环评估：替代部分实路测试，快速迭代。在线强化学习训练环境：生成无限仿真数据，覆盖长尾场景。生成式数据工厂：程序化生成极端天气、罕见交互等难采集场景。视频风格迁移：保留动作与动态，修改场景外观。

这里额外注意几个事情：①：X-World 可以生成【12FPS ，累计288帧，24秒的长时序视频】②：视频生成的是7路摄像头的，无明显漂移、跨视角几何一致、动作严格对齐；③：在不考虑算力喝灾难性漂移的情况下X-World因为仅依赖历史上下文，可以理论上生成无限长度的视频 ❗【极端长程>60s】，当然需要额外矫正~

这个X-World可以大幅度降低，VLA2.0 实路测试成本高、场景覆盖有限等痛点~加快模型的迭代评估~在内蒙的算力集群当然得疯狂用起来~

懒博小课堂听不懂的汽车黑话小鹏vla2.0小鹏汽车

众力资讯网

小鹏AD 团队最新论文： X-World: Controllable Ego-C

热门分类