昨天看了个视频,某个媒体关于几个品牌的智驾感受,最后的他们的观点和我的体验基本一

恒南谈汽车啊 2025-09-15 18:10:28

昨天看了个视频,某个媒体关于几个品牌的智驾感受,最后的他们的观点和我的体验基本一致。

去年有媒体采访过我,最后一个问题是关于智驾的,我记得我最后说的一句话是:"技术当然是有后发优势的,但有的是短跑选手,有的是长跑选手。现在也只是刚刚开始罢了,不用太早下结论。"这个要看企业的技术的前瞻性,定力和稳态,忽快忽慢,眼光短浅的很容易像现在这样掉梯队。

另外再说一下VLA。最近看有人在一些平台带节奏,盲目鼓吹VLA要怎么怎么样。

我来尽量通俗的一下,其实我一直不太说智驾方面的事,是因为哪怕是计算机硕士科班出身,我也觉得自己水平不行。很多时候了解的越多,越知道自己渺小。

搞技术的奇妙之处在于:它赋予我们勇气,又让我们谦卑。

而不了解技术的一些人容易被各种话术带偏,往往就容易张嘴就来;有些媒体更没有什么判断标准,简单的给钱就来。

VLA模型作为自动驾驶领域的前沿技术,当然是好东西,具有重要价值。但其成功部署高度依赖于硬件算力支持。在技术实现路径上,目前存在两种主要方案:

多段式融合(端到端与VLA并行部署)和一段式VLA(将端到端决策与VLA推理完全融合)。

端到端+VLA的多段式融合则将端到端决策与VLA推理分离,通常使用两颗芯片分别运行两种算法,端到端负责基础决策,VLA提供更高级的语义理解和长链条推理能力。这种架构决策过程更透明,但存在模块间信息传递延迟问题。

端到端是类似于人类的经验和直觉,决策速度极快。就像人类掌握平衡一样,没有那么多思考,更多的是一种习惯和直觉,所以经常比喻成小脑。当然了这不是说端到端就不需要算力了,即便是小脑,也是有一定的算力的。由于决策过程类似于人类的直觉,虽然快但缺乏可解释性,决策逻辑不透明。但在低算力的情况下,这几乎是唯一的最佳选择。

VLA是属于决策过程包含深度思考和推理,延迟较高,但决策过程透明,能够展示推理逻辑 。所以决策的会很慢,这就需要更高的算力来弥补。 而Orin的算力太低了,其实现在用在VLA上是完全不够看的,导致决策过于缓慢,而路况和车速要求的实时性要求很强。

双Orin一个跑端到端,一个跑VLA的想法固然好,但是因为算力的影响,也容易浪费算力两个都跑不好。

双Orin X方案,理论上可提供508TOPS的算力,足以分别支持一个普通端到端模型决策(约200TOPS)和一个非常轻量化的VLA模型(起码需要300TOPS)的并行运行。但实际部署中,由于需要满足响应时间的要求,两个模型都参数都不能太大,不容易控制好系统下限,如果兜底的规控又没有经验,就会最后导致效果有限。与其两个一起上,试图取长补短,也可能两个都被硬件的算力制约了。

再说回Thor,其实也只有750Tops的算力,比双Orin强点,响应能快一点,但提升的也有限,纸面上是提升30%,没法翻数倍。

所以对于VLA这种长链条推理来说还是不够看,如果是多段式融合,还要把算力再分给端到端一部分。

因此我觉得用Thor跑端到端+VLA只能说是刚刚勉强够用。因为只有一个芯片了,端到端与VLA的算力分配需要精心设计,否则可能导致两者性能均不理想。

而且这个模式下,而无论是端到端还是VLA的决策,实际上是有重复性的。前面10米出现一个车加塞了,端到端直觉应该减速了,VLA经过推理,也这么认为。其实是存在浪费算力的行为的。

那么下个阶段,我个人认为谁先在更高的算力下降低VLA的延迟,实现一段式VLA,才可能在后面掌握主动。

一段式VLA需要极高的算力支持,因为模型同时处理视觉输入、语言理解和动作生成三个复杂任务。

要知道,至少500TOPS的算力才能实现7-10Hz的VLA响应,而7-10Hz本身也并不算快速的决策。

但如果算力提高到了1500Tops呢?可以实现20-30Hz的VLA响应,这个响应速度就好很多了,基本达到端到端的速度了。

在未来真正掌握主动的将是那些能率先在更高算力下降低VLA延迟的车企,它们将拥有更完整的智能驾驶解决方案和更强大的用户吸引力。

端到端+VLA多段式融合和一段式VLA,基本可以比作两个不太聪明的人一起配合开车,共通决策;和一个大脑智商高,足够的聪明人一个人开车。

也不知道有多少人看不懂,其实对于大多数消费者不用关心这些,以实际体验为准就好。

0 阅读:0
恒南谈汽车啊

恒南谈汽车啊

感谢大家的关注