众力资讯网

整理了一下Elctrek采访小鹏汽车 刘先明的实录:主持人:你目前身处丹佛,参加

整理了一下Elctrek采访小鹏汽车 刘先明的实录:

主持人:你目前身处丹佛,参加全球顶级计算机视觉会议之一CVPR。昨天你和特斯拉、Nvidia电子、Waymo 等行业头部企业同台交流。昨天在 CVPR 参会体验如何?今年你的论文再度入选会议,这是小鹏团队第几次参会发表成果了?刘先明:这是我们第二次参会。去年我也在不同专题论坛做过分享,一共参与了三场论坛发言。 去年我们探讨的技术还处在研发阶段,当时没人能确定这套技术能否落地、真正装车量产。今年我还和同行打趣:去年聊的还只是实验室里的研究内容,而今年我们谈论的技术已经正式落地装车;同时我们也分享了今年内、乃至明年计划落地的新技术,希望明年还能带来全新的进展。

01:08 大模型、自动驾驶底层理念当下具身智能与自动驾驶领域里,基础大模型是热门方向。业内常会把视觉模型和通用大模型割裂看待,视作两类完全不同的技术。但在本次分享中我想强调:我们不会用名词概念去强行划分二者。 我们的核心目标是打造一款能深度理解现实世界的基础大模型,依靠它做出判断、进而控制车辆。我总结成三句话:基于理解实现驾驶、基于预测实现理解、基于模型规模化实现预测。在小鹏内部,我们不会拆分技术概念,而是将所有能力融合打通。

01:42 今年技术核心:自监督训练 + 多维度预测很多技术名词只是人为贴的标签,本质都是整合各类技术模块。今年我们对外发布了相关技术演示视频。我们现阶段主要采用自监督学习训练模型,依托车队海量用户的驾驶行为数据作为监督信号。但仅靠驾驶动作数据还不够,模型仍需要完整感知、理解周遭环境。 因此今年我们主攻全新方向:让模型不仅能预判车载摄像头捕捉到的画面变化,还能同步预测方向盘、油门 / 刹车踏板的操作趋势。这也是我们本次分享的核心内容。目前该技术计划在今年内推送上车,我们认为这会是一次重要的功能迭代。

02:28 解读「具身智能(Physical AI)」主持人:你如何定义具身智能?单纯理解为 “在物理世界落地应用人工智能” 吗?刘先明:可以这么理解。我们要打造适配真实物理世界的 AI 系统。 传统大模型(比如语言模型)只需要预测文本内容,输出结构化数据;但物理世界完全不同:自动驾驶的所有输入都是连续、非结构化的传感器信号、电信号,最终输出也是用于控制车辆动力的连续控制指令。 这就需要一套完全不同的技术架构来支撑,这也是我们持续投入重金研发的原因。我们希望 AI 能真正看懂、理解现实世界的运行规律。

03:13 行业通用技术思路:感知、决策、仿真我注意到近期也有其他企业提出了相似思路:AI 系统接收摄像头、各类传感器的输入,做出行为决策,同时对现实场景进行仿真推演。 这是一套颠覆性的底层技术逻辑。如果做不到这一点,自动驾驶技术就很难拓展到机器人领域,也难以衍生出飞行汽车等通用智能载具,技术边界会被牢牢限制。而这正是我们想要突破的方向。主持人:现在行业普遍在探索 “视觉直连动作”、摒弃语言作为中间交互环节,和你刚才提到的 “依托世界模型预判行为”,二者有什么区别?据了解,你们已在 V1 版本中实现了去除语言中间层。

04:08 监督信号、维度降维与世界模型刘先明:我们近期已经推送了新版 OTA 升级。 目前仅依靠驾驶动作作为监督信号,存在信号过于稀疏的问题,其他同行也提到过类似痛点:模型输入端是超高维度数据(例如每秒数十亿特征量),但最终用于控车的输出指令可能只有一二十个,数据维度被大幅压缩。 人类的驾驶行为本身属于高维监督信号:人会先感知环境、预判路况,再做出驾驶决策。单纯依赖最终动作信号,模型很难完整理解世界。 为此我们提出了世界模型。业内常会把世界模型、视觉 - 语言 - 动作模型(VLA)拆成两个独立技术方向,但在我们看来二者本质同源。我们的终极目标是打造足够强大的基础大模型,让世界模型直接胜任自动驾驶工作,没必要生硬划分概念。主持人:能否具体讲讲这套方案,和最新版 VLA、以及特斯拉相关技术路线的差异?刘先明:说实话,我没法完整拆解对方的技术架构,开个玩笑而已。

05:42 行业共通路线:模型规模化(Scaling Law)不过行业底层理念是相通的,核心都是模型规模化。 从 2016 年开始,业内就开启了模型规模化探索:借助残差块等技术不断扩大模型参数量,随后大家发现模型变大后,配套的数据量跟不上。于是行业开始转向自监督学习—— 就像语言模型用 “预测下一个字符” 做自训练,无需人工标注数据,大幅降低成本。 如今 AI 领域的所有突破,基本都源于模型规模化。现在不少大模型参数量已达到万亿级别,并且整合全网海量数据。这套逻辑,同样适用于具身智能。深挖底层逻辑,思路非常直白:在完成模型冗余优化、运行时延优化等一系列工程优化后,持续扩充模型容量,再投喂海量数据完成训练。 无论是特斯拉、小鹏还是其他同行,走的都是同一条路:依托数据驱动、遵循规模化法则搭建系统。在此基础上,我们仍保留语言作为输入指令,这是提升模型通用能力的关键。比如用户对车辆下发语音指令,车辆需要理解高层意图。 我们的做法是:保留视觉信号 + 文本指令作为输入端,但彻底砍掉语言作为中间运算层。因为语言转译会产生冗余计算、成为性能瓶颈,这也是我们和其他路线的核心区别之一。

08:03 小鹏核心优势:数据多样性 + 数据基建第二个核心差异,来自数据质量与数据多样性。 中国道路场景更丰富,更容易收集到各类典型路况数据,这是我们的天然优势。我们花费大量精力打磨数据链路与数据基建,确保能充分利用全国车队回传的海量数据。想要做大模型,就必须有充足的信息输入,而摄像头是最优选择:摄像头数据读取时延仅数毫秒、采样频率高。从路面场景发生,到传感器捕捉信号,摄像头的信息密度遥遥领先。反观激光雷达、毫米波雷达,扫描与预处理动辄需要几十甚至上百毫秒,信号密度也偏低;高规格激光雷达还存在功耗过高的问题。因此,若想搭建依托海量数据的大模型系统,摄像头是最优解。

09:21 极端工况:摄像头性能与传感器融合主持人:面对强光、大雾这类场景,是否需要依靠多传感器融合来补位?刘先明:先说强光、弱光环境:凭借图像信号处理器(ISP),车载摄像头的动态范围其实很强。 常规图像会压缩为 8 比特格式,但摄像头原始采集数据接近 28 比特,动态范围差距可达百万倍以上,足以应对高对比度、强光直射等场景。 但雾、暴雨、沙尘等恶劣天气,是所有传感器的共同难题。只要还有基础视觉能见度,摄像头就能正常工作;但在极端恶劣工况下,所有光学传感器都会失效。

10:39 模型泛化性、OTA 适配与生态合作主持人:我日常在用特斯拉 FSD V14,体验非常出色。如果把自动驾驶系统落地到不同车型上,会遇到哪些挑战?刘先明:先不说对外合作车型,仅小鹏自家,每次 OTA 就要适配 20 余款不同车型。 我们的模型已经具备很强的泛化能力,2021 至 2023 年的多款车型都能无缝适配。 本次推送的 620 版本 OTA,我们完成了一次大规模架构重构,核心目的就是进一步提升模型泛化性。我们希望这套系统不仅服务现有车型、新款车型,也能适配更多硬件平台。量产造车对我们至关重要:真实量产车辆能持续回传场景数据、收集用户使用反馈,就像谷歌推出 Pixel 手机来落地安卓生态一样。 但我们的定位始终是AI 技术公司,希望把自研的模型与自动驾驶能力对外输出、赋能更多车企。单靠一家企业无法推动行业发展,我们需要更多合作伙伴,携手推动自动驾驶技术普及落地。