整理了一下Elctrek采访小鹏汽车刘先明的实录：主持人：你目前身处丹佛，参加

整理了一下Elctrek采访小鹏汽车刘先明的实录：

主持人：你目前身处丹佛，参加全球顶级计算机视觉会议之一CVPR。昨天你和特斯拉、Nvidia电子、Waymo 等行业头部企业同台交流。昨天在 CVPR 参会体验如何？今年你的论文再度入选会议，这是小鹏团队第几次参会发表成果了？刘先明：这是我们第二次参会。去年我也在不同专题论坛做过分享，一共参与了三场论坛发言。去年我们探讨的技术还处在研发阶段，当时没人能确定这套技术能否落地、真正装车量产。今年我还和同行打趣：去年聊的还只是实验室里的研究内容，而今年我们谈论的技术已经正式落地装车；同时我们也分享了今年内、乃至明年计划落地的新技术，希望明年还能带来全新的进展。

01:08 大模型、自动驾驶底层理念当下具身智能与自动驾驶领域里，基础大模型是热门方向。业内常会把视觉模型和通用大模型割裂看待，视作两类完全不同的技术。但在本次分享中我想强调：我们不会用名词概念去强行划分二者。我们的核心目标是打造一款能深度理解现实世界的基础大模型，依靠它做出判断、进而控制车辆。我总结成三句话：基于理解实现驾驶、基于预测实现理解、基于模型规模化实现预测。在小鹏内部，我们不会拆分技术概念，而是将所有能力融合打通。

01:42 今年技术核心：自监督训练 + 多维度预测很多技术名词只是人为贴的标签，本质都是整合各类技术模块。今年我们对外发布了相关技术演示视频。我们现阶段主要采用自监督学习训练模型，依托车队海量用户的驾驶行为数据作为监督信号。但仅靠驾驶动作数据还不够，模型仍需要完整感知、理解周遭环境。因此今年我们主攻全新方向：让模型不仅能预判车载摄像头捕捉到的画面变化，还能同步预测方向盘、油门 / 刹车踏板的操作趋势。这也是我们本次分享的核心内容。目前该技术计划在今年内推送上车，我们认为这会是一次重要的功能迭代。

02:28 解读「具身智能（Physical AI）」主持人：你如何定义具身智能？单纯理解为 “在物理世界落地应用人工智能” 吗？刘先明：可以这么理解。我们要打造适配真实物理世界的 AI 系统。传统大模型（比如语言模型）只需要预测文本内容，输出结构化数据；但物理世界完全不同：自动驾驶的所有输入都是连续、非结构化的传感器信号、电信号，最终输出也是用于控制车辆动力的连续控制指令。这就需要一套完全不同的技术架构来支撑，这也是我们持续投入重金研发的原因。我们希望 AI 能真正看懂、理解现实世界的运行规律。

03:13 行业通用技术思路：感知、决策、仿真我注意到近期也有其他企业提出了相似思路：AI 系统接收摄像头、各类传感器的输入，做出行为决策，同时对现实场景进行仿真推演。这是一套颠覆性的底层技术逻辑。如果做不到这一点，自动驾驶技术就很难拓展到机器人领域，也难以衍生出飞行汽车等通用智能载具，技术边界会被牢牢限制。而这正是我们想要突破的方向。主持人：现在行业普遍在探索 “视觉直连动作”、摒弃语言作为中间交互环节，和你刚才提到的 “依托世界模型预判行为”，二者有什么区别？据了解，你们已在 V1 版本中实现了去除语言中间层。

04:08 监督信号、维度降维与世界模型刘先明：我们近期已经推送了新版 OTA 升级。目前仅依靠驾驶动作作为监督信号，存在信号过于稀疏的问题，其他同行也提到过类似痛点：模型输入端是超高维度数据（例如每秒数十亿特征量），但最终用于控车的输出指令可能只有一二十个，数据维度被大幅压缩。人类的驾驶行为本身属于高维监督信号：人会先感知环境、预判路况，再做出驾驶决策。单纯依赖最终动作信号，模型很难完整理解世界。为此我们提出了世界模型。业内常会把世界模型、视觉 - 语言 - 动作模型（VLA）拆成两个独立技术方向，但在我们看来二者本质同源。我们的终极目标是打造足够强大的基础大模型，让世界模型直接胜任自动驾驶工作，没必要生硬划分概念。主持人：能否具体讲讲这套方案，和最新版 VLA、以及特斯拉相关技术路线的差异？刘先明：说实话，我没法完整拆解对方的技术架构，开个玩笑而已。

05:42 行业共通路线：模型规模化（Scaling Law）不过行业底层理念是相通的，核心都是模型规模化。从 2016 年开始，业内就开启了模型规模化探索：借助残差块等技术不断扩大模型参数量，随后大家发现模型变大后，配套的数据量跟不上。于是行业开始转向自监督学习—— 就像语言模型用 “预测下一个字符” 做自训练，无需人工标注数据，大幅降低成本。如今 AI 领域的所有突破，基本都源于模型规模化。现在不少大模型参数量已达到万亿级别，并且整合全网海量数据。这套逻辑，同样适用于具身智能。深挖底层逻辑，思路非常直白：在完成模型冗余优化、运行时延优化等一系列工程优化后，持续扩充模型容量，再投喂海量数据完成训练。无论是特斯拉、小鹏还是其他同行，走的都是同一条路：依托数据驱动、遵循规模化法则搭建系统。在此基础上，我们仍保留语言作为输入指令，这是提升模型通用能力的关键。比如用户对车辆下发语音指令，车辆需要理解高层意图。我们的做法是：保留视觉信号 + 文本指令作为输入端，但彻底砍掉语言作为中间运算层。因为语言转译会产生冗余计算、成为性能瓶颈，这也是我们和其他路线的核心区别之一。

08:03 小鹏核心优势：数据多样性 + 数据基建第二个核心差异，来自数据质量与数据多样性。中国道路场景更丰富，更容易收集到各类典型路况数据，这是我们的天然优势。我们花费大量精力打磨数据链路与数据基建，确保能充分利用全国车队回传的海量数据。想要做大模型，就必须有充足的信息输入，而摄像头是最优选择：摄像头数据读取时延仅数毫秒、采样频率高。从路面场景发生，到传感器捕捉信号，摄像头的信息密度遥遥领先。反观激光雷达、毫米波雷达，扫描与预处理动辄需要几十甚至上百毫秒，信号密度也偏低；高规格激光雷达还存在功耗过高的问题。因此，若想搭建依托海量数据的大模型系统，摄像头是最优解。

09:21 极端工况：摄像头性能与传感器融合主持人：面对强光、大雾这类场景，是否需要依靠多传感器融合来补位？刘先明：先说强光、弱光环境：凭借图像信号处理器（ISP），车载摄像头的动态范围其实很强。常规图像会压缩为 8 比特格式，但摄像头原始采集数据接近 28 比特，动态范围差距可达百万倍以上，足以应对高对比度、强光直射等场景。但雾、暴雨、沙尘等恶劣天气，是所有传感器的共同难题。只要还有基础视觉能见度，摄像头就能正常工作；但在极端恶劣工况下，所有光学传感器都会失效。

10:39 模型泛化性、OTA 适配与生态合作主持人：我日常在用特斯拉 FSD V14，体验非常出色。如果把自动驾驶系统落地到不同车型上，会遇到哪些挑战？刘先明：先不说对外合作车型，仅小鹏自家，每次 OTA 就要适配 20 余款不同车型。我们的模型已经具备很强的泛化能力，2021 至 2023 年的多款车型都能无缝适配。本次推送的 620 版本 OTA，我们完成了一次大规模架构重构，核心目的就是进一步提升模型泛化性。我们希望这套系统不仅服务现有车型、新款车型，也能适配更多硬件平台。量产造车对我们至关重要：真实量产车辆能持续回传场景数据、收集用户使用反馈，就像谷歌推出 Pixel 手机来落地安卓生态一样。但我们的定位始终是AI 技术公司，希望把自研的模型与自动驾驶能力对外输出、赋能更多车企。单靠一家企业无法推动行业发展，我们需要更多合作伙伴，携手推动自动驾驶技术普及落地。